Parsen Sie die Complete-Webseite

c# html-agility-pack parsing

Frage

Wie kann man komplette HTML-Webseiten, nicht spezifische Knoten mit HTML Agility Pack oder einer anderen Technik analysieren?

Ich verwende diesen Code, aber dieser Code analysiert nur bestimmte Knoten, aber ich brauche eine komplette Seite, um mit sauberen und klaren Inhalten zu analysieren

List<string> list = new List<string>();
string url = "https://www.google.com";
HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load(url);
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//a"))
{
   list.Add(node.InnerText);
}

Akzeptierte Antwort

Um alle nachfolgenden Textknoten zu erhalten, verwenden Sie etwas wie

var textNodes = doc.DocumentNode.SelectNodes("//text()").
                                 Select(t=>t.InnerText);

Um alle nicht leeren Nachfolgertextknoten zu erhalten

var textNodes = doc.DocumentNode.SelectNodes("//text()").
                                 Select(t=>t.InnerText);

Beliebte Antwort

Tun Sie SelectNodes("*") . '*' (Sternchen) Ist der Wildcard-Selektor und erhält jeden Knoten auf der Seite.




Lizenziert unter: CC-BY-SA with attribution
Nicht verbunden mit Stack Overflow
Ist diese KB legal? Ja, lerne warum
Lizenziert unter: CC-BY-SA with attribution
Nicht verbunden mit Stack Overflow
Ist diese KB legal? Ja, lerne warum