HTML 민첩성 팩을 사용한 잘못된 인코딩

character-encoding encoding html-agility-pack unicode

문제

나는 http://www.wein-wg.de/wwg/rheinhessen/worms-pfeddersheim/weingut-goldschmidt/ 을 파싱하려고 시도하지만 올바른 문자셋을 얻을 수 없습니다. 웹 사이트는 iso-8859-1을 사용하고 있습니다. 어떻게 든 모든 유니 코드 문자는? Visual Studio에서.

Visual Studio 나 그 밖의 다른 곳에서 올바른 문자 집합으로 변환 할 수 있습니까?

수락 된 답변

using HtmlAgilityPack;

HtmlDocument doc;
HtmlWeb web = new HtmlWeb();

private void getPage(string url)
{
    web.OverrideEncoding = Encoding.GetEncoding("iso-8859-1");
    doc = web.Load(url);
    webBrowser1.DocumentText = doc.DocumentNode.OuterHtml;
}

getPage("http://www.wein-wg.de/wwg/rheinhessen/worms-pfeddersheim/weingut-goldschmidt/");

인기 답변

해결 된 것 :

        HtmlWeb Webget = new HtmlWeb();
        HtmlDocument doc = new HtmlDocument();
        Webget.AutoDetectEncoding = false;
        Webget.OverrideEncoding = Encoding.UTF8;

        doc_tmp.OptionOutputAsXml = true;
        doc_tmp.OptionReadEncoding = true;
        doc_tmp.OptionFixNestedTags = true;
        doc_tmp.OptionDefaultStreamEncoding = Encoding.UTF8;

                doc_tmp.LoadHtml(tmp.InnerHtml);
                doc_tmp.Save(Console.Out);



아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.