조작 된 html에 문제가있는 HtmlAgilityPack

c# html-agility-pack

문제

html 문서에서 의미있는 텍스트를 추출하고 html-agility-pack을 사용했습니다. 여기 내 코드가 있습니다 :

string convertedContent = HttpUtility.HtmlDecode(
    ConvertHtml(HtmlAgilityPack.HtmlEntity.DeEntitize(htmlAsString))
);

ConvertHtml :

public string ConvertHtml(string html)
{
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(html);

    StringWriter sw = new StringWriter();
    ConvertTo(doc.DocumentNode, sw);
    sw.Flush();
    return sw.ToString();
}

로 변환하다:

public void ConvertTo(HtmlAgilityPack.HtmlNode node, TextWriter outText)
{
    string html;
    switch (node.NodeType)
    {
        case HtmlAgilityPack.HtmlNodeType.Comment:
            // don't output comments
            break;

        case HtmlAgilityPack.HtmlNodeType.Document:
            foreach (HtmlNode subnode in node.ChildNodes)
            {
              ConvertTo(subnode, outText);
            }
            break;

        case HtmlAgilityPack.HtmlNodeType.Text:
            // script and style must not be output
            string parentName = node.ParentNode.Name;
            if ((parentName == "script") || (parentName == "style"))
                break;

            // get text
            html = ((HtmlTextNode)node).Text;

            // is it in fact a special closing node output as text?
            if (HtmlNode.IsOverlappedClosingElement(html))
                break;

            // check the text is meaningful and not a bunch of whitespaces
            if (html.Trim().Length > 0)
            {
                outText.Write(HtmlEntity.DeEntitize(html) + " ");
            }
            break;

        case HtmlAgilityPack.HtmlNodeType.Element:
            switch (node.Name)
            {
                case "p":
                    // treat paragraphs as crlf
                    outText.Write("\r\n");
                    break;
            }

            if (node.HasChildNodes)
            {
            foreach (HtmlNode subnode in node.ChildNodes)
             {
              ConvertTo(subnode, outText);
             }
            }
            break;
    }
}

이제 html 페이지의 형식이 잘못되었을 때 (예 : http://rareseeds.com/cart/products/Purple_of_Romagna_Artichoke-646-72.html에 <meta content="text/html; charset=uft-8" http-equiv="Content-Type"> 와 같은 형식이 잘못된 메타 태그가있는 경우) <meta content="text/html; charset=uft-8" http-equiv="Content-Type"> ) [utf 대신"uft "를 적어 둡니다] html 문서를로드하려고 할 때 코드가 누그러집니다.

누군가가 나에게 이러한 잘못된 HTML 페이지를 극복하고 HTML 문서에서 관련 텍스트를 추출 할 수있는 방법을 제안 할 수 있습니까?

고마워, 카필

수락 된 답변

HtmlAgilityPack 프로젝트 페이지에서 "파서는 '실제 HTML 형식의 HTML'에 매우 관대합니다. 그러나 당신이 설명하는 종류의 오류는 너무 심각해서 해결할 수 없습니다. 다음을 사용하여 기본 인코딩을 설정할 수 있습니다.

 HtmlDocument doc = new HtmlDocument();
 doc.OptionDefaultStreamEncoding = Encoding.UTF8;



아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.