C # HTMLAgilityPack HTML을 텍스트 - 구문 분석 오류

c# html-agility-pack html-parsing

문제

C #을 사용하여 HTML 파일에서 텍스트를 추출해야합니다. HTMLAgilityPack을 사용하려고하는데 일부 구문 분석 오류 (닫히지 않은 태그)가 표시됩니다. 나는이 두 가지 옵션을 사용하고있다.

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

"모든 수정"유형 옵션이 있습니까? 나는 오류에 관심이 없다, 나는 단지 그 내용을 원한다.

수락 된 답변

어쩌면 이것은 해결 방법이지만 HTML에서 텍스트를 추출해야만 정규 표현식을 사용할 수 있습니다.

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");



아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.