HtmlAgilityPackは不正な形式のHTMLに問題を与えます

c# html-agility-pack

質問

私はhtmlドキュメントから意味のあるテキストを抽出したいと思い、同じものに対してhtml-agility-packを使用していました。ここに私のコードです:

string convertedContent = HttpUtility.HtmlDecode(
    ConvertHtml(HtmlAgilityPack.HtmlEntity.DeEntitize(htmlAsString))
);

ConvertHtml:

public string ConvertHtml(string html)
{
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(html);

    StringWriter sw = new StringWriter();
    ConvertTo(doc.DocumentNode, sw);
    sw.Flush();
    return sw.ToString();
}

に変換:

public void ConvertTo(HtmlAgilityPack.HtmlNode node, TextWriter outText)
{
    string html;
    switch (node.NodeType)
    {
        case HtmlAgilityPack.HtmlNodeType.Comment:
            // don't output comments
            break;

        case HtmlAgilityPack.HtmlNodeType.Document:
            foreach (HtmlNode subnode in node.ChildNodes)
            {
              ConvertTo(subnode, outText);
            }
            break;

        case HtmlAgilityPack.HtmlNodeType.Text:
            // script and style must not be output
            string parentName = node.ParentNode.Name;
            if ((parentName == "script") || (parentName == "style"))
                break;

            // get text
            html = ((HtmlTextNode)node).Text;

            // is it in fact a special closing node output as text?
            if (HtmlNode.IsOverlappedClosingElement(html))
                break;

            // check the text is meaningful and not a bunch of whitespaces
            if (html.Trim().Length > 0)
            {
                outText.Write(HtmlEntity.DeEntitize(html) + " ");
            }
            break;

        case HtmlAgilityPack.HtmlNodeType.Element:
            switch (node.Name)
            {
                case "p":
                    // treat paragraphs as crlf
                    outText.Write("\r\n");
                    break;
            }

            if (node.HasChildNodes)
            {
            foreach (HtmlNode subnode in node.ChildNodes)
             {
              ConvertTo(subnode, outText);
             }
            }
            break;
    }
}

htmlページの形式が誤っている場合もあります(たとえば、次のページ - http://rareseeds.com/cart/products/Purple_of_Romagna_Artichoke-646-72.htmlに <meta content="text/html; charset=uft-8" http-equiv="Content-Type">ような形式のメタタグがあり<meta content="text/html; charset=uft-8" http-equiv="Content-Type"> )[utfの代わりに" uft "に注意してください]私のコードは、htmlドキュメントを読み込もうとしている時に吐き出されています。

誰かが私にこれらの不正な形式のHTMLページを克服し、HTML文書から関連するテキストを引き出す方法を教えてもらえますか?

ありがとう、カピル

受け入れられた回答

HtmlAgilityPackプロジェクトページでは「パーサーは「現実世界の不正なHTML」に対して非常に寛容です。しかし、あなたが書いているエラーの種類は、あまりにも深刻であり、修正される可能性があります。デフォルトのエンコードは次のように設定できます。

 HtmlDocument doc = new HtmlDocument();
 doc.OptionDefaultStreamEncoding = Encoding.UTF8;


ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ