HTMLアジャイルパック - ページサマリーを入手

html html-agility-pack parsing

質問

HTMLアジャイルパックを使用して、HTMLファイルの本文からテキストの最初の段落を取得するにはどうすればよいですか。私はDIGGスタイルのリンク提出ツールを構築しており、タイトルとテキストの最初の段落を取得したいと考えています。タイトルは簡単ですが、本文の最初の段落をどのように取得するかについての提案はありますか?私はそれがページに応じてPまたはDIV内にあるかもしれないと思います。

受け入れられた回答

これはあなたがコントロールするhtmlですか?もしそうなら、pにIDまたはクラスを与えて、それを使って見つけることができます

//p[@id=\"YOUR ID\"] or //p[@class=\"YOUR CLASS\"]

編集:あなたはHTMLを制御しないので、多分以下は動作します。すべてのHtmlTextNodesをとり、指定されたしきい値を超えるテキストのグループを検索しようとします。それは完璧ではありませんが、正しい方向に進むことができます。

//p[@id=\"YOUR ID\"] or //p[@class=\"YOUR CLASS\"]

人気のある回答

アジリティパックはxpathを使用して、単純なxpathステートメントを使用するhtmlロードを照会します。何かのようなもの...

HtmlDocument htmldoc = new HtmlDocument();
htmldoc.LoadHtml(content);

HtmlNodeCollection firstParagraph = htmldoc.DocumentNode.SelectNodes("//p[1]");



ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ