VB.net HTML AgilityPackを使用したリンクとテーブルの解析

.net html-agility-pack vb.net

質問

私はスクリーンスクレイピングをいくつか試みようとしており、HTML AgilityPackを発見しましたが、VB.netでどのように使用するかを考える上で問題があります。

私が最初にやりたいことは、HREFに囲まれたテキストが分かっている場合、HREFタグのURL文字列を見つけることです。

2番目のことは、HTMLテーブルを解析して各行を調べ、データを引き出してデータベースに保存できるようにすることです(基本的な分析の後に)。

受け入れられた回答

それではここでは良いスタートリンクがあります: HTML Agility packの使い方

これも参照してください: リンクを変更するためのHtmlAgilityPackの例は機能しません。これをどのように達成するのですか?

そして、これは: HTML文書内のすべてのA HREF Urlを見つけること(不正な形式のHTMLでも)

特定のHREFを見つけるには、xpath構文は "// a [@ href = 'あなたのurl']"、つまり: "あなたのURLと等しいHREF属性を持つタグを取得する。

編集:

テキストのみを知っている場合はHREFを検索します。たとえば、htmlテキスト ' <a href="homepage.html">Cars</a> 'があり、homepage.htmlを検索した場合、これはあなたのやり方ですそれ。

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));



ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ