Compelete 웹 페이지 구문 분석

c# html-agility-pack parsing

문제

어떻게 HTML 애자일 팩이나 다른 기술을 사용하여 특정 노드가 아닌 완전한 HTML 웹 페이지를 파싱합니까?

이 코드를 사용하고 있지만이 코드는 특정 노드를 구문 분석 만합니다. 그러나 깔끔하고 명확한 내용으로 구문 분석 할 수있는 완전한 페이지가 필요합니다.

List<string> list = new List<string>();
string url = "https://www.google.com";
HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load(url);
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//a"))
{
   list.Add(node.InnerText);
}

수락 된 답변

모든 자손 텍스트 노드를 얻으려면

var textNodes = doc.DocumentNode.SelectNodes("//text()").
                                 Select(t=>t.InnerText);

모든 비어 있지 않은 자손 텍스트 노드를 가져 오려면

var textNodes = doc.DocumentNode.SelectNodes("//text()").
                                 Select(t=>t.InnerText);

인기 답변

SelectNodes("*") . '*'(별표) 와일드 카드 선택자이며 페이지의 모든 노드를 가져옵니다.




아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.