Ich möchte HTML-Seite mit C # analysieren. Es gibt HTML-Seiten, die eine Menge HTML-Tags enthalten, hier ist eine Auswahl von ihnen:
<span class=text14 id="article_content"><!-- RELEVANTI_ARTICLE_START --><span ></b>The
most important component for <a
class=bluelink href="http://www.ynetnews.com/articles/0,7340,L-
3284752,00.html%20"' onmouseover='this.href=unescape(this.href)'
target=_blank>Israel</a>'s
security is its special relations with the American administration, and especially with its generous purse. When the Netanyahu government launches a great outcry against the <a ...
aber ich möchte nur den Inhalt mit dem Tag <span class=text14 id="article_content">
. Zuerst habe ich über die Verwendung von Preg-Match nachgedacht, aber dann wurde mir klar, dass es überhaupt nicht effizient ist. Ich habe später über Html Agility Pack und FizzlerEx gelesen - ich würde gerne wissen, ob es möglich ist, den Text mit dem spezifischen Tag, den ich erwähnt habe, mit diesen Tools zu verpacken , und ich wäre dankbar, wenn mir jemand sagen könnte, wie Schnell konnte diese Aufgabe ausgeführt werden.
Mit Html Agility Pack ist es ziemlich einfach:
var markup = @"<span class=text14 id=""article_content""><!-- RELEVANTI_ARTICLE_START --><span ></b>The most important component for <a class=bluelink href=""http://www.ynetnews.com/articles/0,7340,L-3284752,00.html%20""' onmouseover='this.href=unescape(this.href)' target=_blank>Israel</a>'s security is its special relations with the American administration, and especially with its generous purse. When the Netanyahu government launches a great outcry against the</span>";
var doc = new HtmlDocument();
doc.LoadHtml(markup);
var content = doc.GetElementbyId("article_content").InnerText;
Console.WriteLine(content);