Compelete Webページを解析する

c# html-agility-pack parsing

質問

どのように完全なHTML Webページを解析するには、特定のノードではなく、HTML Agility Packまたは他の手法を使用しますか?

私はこのコードを使用していますが、このコードは特定のノードを解析するだけですが、きれいで分かりやすい内容で完全なページを解析する必要があります

List<string> list = new List<string>();
string url = "https://www.google.com";
HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load(url);
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//a"))
{
   list.Add(node.InnerText);
}

受け入れられた回答

すべての子孫テキストノードを取得するには、次のようなものを使用します。

var textNodes = doc.DocumentNode.SelectNodes("//text()").
                                 Select(t=>t.InnerText);

子孫以外のすべてのテキストノードを取得するには

var textNodes = doc.DocumentNode.SelectNodes("//text()").
                                 Select(t=>t.InnerText);

人気のある回答

SelectNodes("*")ます。 '*'(アスタリスク)ワイルドカードセレクタで、ページ上のすべてのノードを取得します。




ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ