Как анализировать полную HTML-страницу, а не конкретные узлы, используя HTML Agility Pack или любую другую технику?
Я использую этот код, но этот код обрабатывает только определенный узел, но мне нужна полная страница для синтаксического анализа с четким и понятным содержимым
List<string> list = new List<string>();
string url = "https://www.google.com";
HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load(url);
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//a"))
{
list.Add(node.InnerText);
}
Чтобы получить все потоковые текстовые узлы, используйте что-то вроде
var textNodes = doc.DocumentNode.SelectNodes("//text()").
Select(t=>t.InnerText);
Чтобы получить все непустые потоковые текстовые узлы
var textNodes = doc.DocumentNode.
SelectNodes("//text()[normalize-space()]").
Select(t=>t.InnerText);
Сделайте SelectNodes("*")
. '*' (звездочка) Является ли селектор дикой карты и получит каждый узел на странице.