HTML 민첩성 팩 - 페이지 요약 얻기

html html-agility-pack parsing

문제

HTML 민첩성 팩을 사용하여 HTML 파일 본문에서 텍스트의 첫 단락을 가져 오는 방법은 무엇입니까? DIGG 스타일 링크 제출 도구를 만들고 텍스트의 첫 번째 단락과 제목을 가져오고 싶습니다. 제목은 쉽습니다. 신체에서 텍스트의 첫 번째 단락을 얻는 방법에 대한 제안은 무엇입니까? 페이지에 따라 P 또는 DIV 내에있을 수 있습니다.

수락 된 답변

이 HTML은 당신이 통제하고 있습니까? 그렇다면 p를 ID 또는 클래스에 부여하고이를 통해 찾을 수 있습니다.

//p[@id=\"YOUR ID\"] or //p[@class=\"YOUR CLASS\"]

편집 : 당신은 HTML을 제어하지 않기 때문에, 어쩌면 아래에 작동합니다. 모든 HtmlTextNodes를 사용하고 지정된 임계 값보다 큰 텍스트 그룹을 찾습니다. 그것은 완벽하지는 않지만 올바른 방향으로 갈 수 있습니다.

//p[@id=\"YOUR ID\"] or //p[@class=\"YOUR CLASS\"]

인기 답변

민첩성 팩은 xpath를 사용하여 간단한 xpath 문을 사용하는 html로드를 쿼리합니다. 뭔가 ..

HtmlDocument htmldoc = new HtmlDocument();
htmldoc.LoadHtml(content);

HtmlNodeCollection firstParagraph = htmldoc.DocumentNode.SelectNodes("//p[1]");



아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.