HTML 민첩성 팩을 사용하여 html 문자열 조각을 구문 분석 할 수 있습니까?
같은 :
var fragment = "<b>Some code </b>";
그런 다음 모든 <b>
태그를 추출 하시겠습니까? 지금까지 본 모든 예제는 html 문서처럼로드되었습니다.
html이면 예.
string str = "<b>Some code</b>";
// not sure if needed
string html = string.Format("<html><head></head><body>{0}</body></html>", str);
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
// look xpath tutorials for how to select elements
// select 1st <b> element
HtmlNode bNode = doc.DocumentNode.SelectSingleNode("b[1]");
string boldText = bNode.InnerText;
나는 이것이 정말로 HtmlAgilityPack의 최고의 사용이라고 생각하지 않는다.
일반적으로 정규 표현식을 사용하여 많은 양의 html을 구문 분석하려는 사람들을 볼 수 있으며 HtmlAgilityPack을 가리키고 있지만이 경우에는 정규 표현식을 사용하는 것이 더 좋을 것이라고 생각합니다.
Roy Osherove는 스 니펫에서 모든 HTML을 제거하는 방법을 설명하는 블로그 게시물을 가지고 있습니다.
Mika Kolari의 샘플을 사용하여 올바른 xpath를 얻었더라도이 태그는 <b> 태그가있는 스 니펫에서만 작동하며 코드가 변경되면 중단됩니다.