Веб-страница Parse Compelete

c# html-agility-pack parsing

Вопрос

Как анализировать полную HTML-страницу, а не конкретные узлы, используя HTML Agility Pack или любую другую технику?

Я использую этот код, но этот код обрабатывает только определенный узел, но мне нужна полная страница для синтаксического анализа с четким и понятным содержимым

List<string> list = new List<string>();
string url = "https://www.google.com";
HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load(url);
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//a"))
{
   list.Add(node.InnerText);
}

Принятый ответ

Чтобы получить все потоковые текстовые узлы, используйте что-то вроде

var textNodes = doc.DocumentNode.SelectNodes("//text()").
                                 Select(t=>t.InnerText);

Чтобы получить все непустые потоковые текстовые узлы

var textNodes = doc.DocumentNode.
                    SelectNodes("//text()[normalize-space()]").
                    Select(t=>t.InnerText);

Популярные ответы

Сделайте SelectNodes("*") . '*' (звездочка) Является ли селектор дикой карты и получит каждый узел на странице.



Related

Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow
Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow