使用Html Agility Pack提取表

html html-agility-pack vb.net web-scraping

我正在嘗試使用Html Agility Pack從網頁中提取表格。到目前為止,我已經設法用它做了一些進展。到目前為止,這是我的代碼

    Dim web As New HtmlAgilityPack.HtmlWeb()
    Dim htmlDoc As HtmlAgilityPack.HtmlDocument = web.Load("--Website url--")
    Dim html As String = htmlDoc.DocumentNode.OuterHtml

    Dim tabletag = htmlDoc.DocumentNode.SelectNodes("//table")

基本上我需要找到一個包含以下html標籤的表

    Dim web As New HtmlAgilityPack.HtmlWeb()
    Dim htmlDoc As HtmlAgilityPack.HtmlDocument = web.Load("--Website url--")
    Dim html As String = htmlDoc.DocumentNode.OuterHtml

    Dim tabletag = htmlDoc.DocumentNode.SelectNodes("//table")

任何想法如何我可以刪除我對特定表的表搜索?

一般承認的答案

您需要確定表的內容,使其在文檔中的所有表中都是唯一的。它可能是表的那些屬性之一,例如使其唯一的summary屬性。或者,它可能是您需要查找的表中的子元素之一。由於您未指定,我將展示如何基於summary屬性限制結果的示例:

Dim tabletag = htmlDoc.DocumentNode.SelectNodes("//table[@summary='Contains search results']")



許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因
許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因