使用VB.net HTML AgilityPack解析鏈接和表

.net html-agility-pack vb.net

我正在嘗試進行一些屏幕抓取,並發現了HTML AgilityPack,但是在弄清楚如何在VB.net中使用它時遇到了一些麻煩。

我想要做的第一件事是找到HREF標記的URL字符串,如果我知道HREF中包含的文本。

第二件事是我要做的是解析一個HTML表,遍歷每一行,然後提取數據,這樣我就可以將它保存到數據庫中(經過一些基本的分析)。

一般承認的答案

這是SO的一個很好的起始鏈接: 如何使用HTML Agility包

另請參見: HtmlAgilityPack更改鏈接的示例不起作用。我該如何做到這一點?

這個: 在HTML文檔中查找所有A HREF Url(即使格式錯誤的HTML)

要查找特定的HREF,xpath語法將為“// a [@ href ='your url']”,表示:“獲取任何HREF屬性等於'your url'的A標記。

編輯:

如果您只知道文本,要查找HREF,例如,如果您有html文本“ <a href="homepage.html">Cars</a> ”並查找homepage.html,那麼這就是您要做的它。

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));



許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因
許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因