C#でHTMLを解析する

c# html html-agility-pack windows-phone

質問

私はC#を使用してHTMLページを解析したいと思います。 htmlタグがたくさん含まれているhtmlページがあります。ここにはそのうちの1つのサンプルがあります:

<span class=text14 id="article_content"><!-- RELEVANTI_ARTICLE_START --><span ></b>The 
     most important component for <a
     class=bluelink href="http://www.ynetnews.com/articles/0,7340,L-
     3284752,00.html%20"' onmouseover='this.href=unescape(this.href)' 
     target=_blank>Israel</a>'s
     security is its special relations with the American administration, and especially with its generous purse. When the Netanyahu government launches a great outcry against the <a  ...

しかし、私は<span class=text14 id="article_content">タグで<span class=text14 id="article_content">れたコンテンツを取得したいだけです。最初はpreg matchを使うことを考えましたが、効率的ではないことに気付きました。私は後でHtml Agility PackFizzlerExについて読んできました。これらのツールを使って言及した特定のタグで囲まれたテキストを得ることが可能かどうかを知りたいと思います。速くこのタスクを実行することができます。

受け入れられた回答

これは、 Html Agility Packを使用するとかなり簡単です:

var markup = @"<span class=text14 id=""article_content""><!-- RELEVANTI_ARTICLE_START --><span ></b>The most important component for <a class=bluelink href=""http://www.ynetnews.com/articles/0,7340,L-3284752,00.html%20""' onmouseover='this.href=unescape(this.href)' target=_blank>Israel</a>'s security is its special relations with the American administration, and especially with its generous purse. When the Netanyahu government launches a great outcry against the</span>";

var doc = new HtmlDocument();
doc.LoadHtml(markup);

var content = doc.GetElementbyId("article_content").InnerText;

Console.WriteLine(content);



ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ