C #으로 HTML 구문 분석

c# html html-agility-pack windows-phone

문제

C #을 사용하여 HTML 페이지를 구문 분석하고 싶습니다. html 태그가 많이 들어있는 html 페이지가 있는데, 여기에 그 중 하나의 샘플이 있습니다.

<span class=text14 id="article_content"><!-- RELEVANTI_ARTICLE_START --><span ></b>The 
     most important component for <a
     class=bluelink href="http://www.ynetnews.com/articles/0,7340,L-
     3284752,00.html%20"' onmouseover='this.href=unescape(this.href)' 
     target=_blank>Israel</a>'s
     security is its special relations with the American administration, and especially with its generous purse. When the Netanyahu government launches a great outcry against the <a  ...

하지만 <span class=text14 id="article_content"> 태그로 감싸 진 내용 만 얻고 싶습니다. 처음에는 preg match 사용에 대해 생각해 보았지만 전혀 효과가 없다는 것을 깨달았습니다. 나중에 Html Agility PackFizzlerEx 에 대해 읽었습니다. 이러한 도구를 사용하여 언급 한 특정 태그로 묶인 텍스트를 가져올 수 있는지 여부를 알고 싶습니다. 누군가가 내게 어떻게 말해 줄 수 있는지 고맙게 생각합니다. 빨리이 작업을 수행 할 수 있습니다.

수락 된 답변

Html Agility Pack을 사용하면 꽤 간단합니다.

var markup = @"<span class=text14 id=""article_content""><!-- RELEVANTI_ARTICLE_START --><span ></b>The most important component for <a class=bluelink href=""http://www.ynetnews.com/articles/0,7340,L-3284752,00.html%20""' onmouseover='this.href=unescape(this.href)' target=_blank>Israel</a>'s security is its special relations with the American administration, and especially with its generous purse. When the Netanyahu government launches a great outcry against the</span>";

var doc = new HtmlDocument();
doc.LoadHtml(markup);

var content = doc.GetElementbyId("article_content").InnerText;

Console.WriteLine(content);


아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.