.NET에서 HTML에 해당하는 XmlReader가 있습니까?

.net html html-agility-pack parsing xmlreader

문제

과거 .NET Framework 에서 HTML을 구문 분석하기 위해 HtmlAgilityPack 을 사용했지만 DOM 모델 만 사용한다는 사실을 좋아하지 않습니다.

큰 문서 및 / 또는 중첩 수준이 높은 문서에서는 스택 오버플로 또는 메모리 부족 예외를 피할 수 있습니다. 또한 일반적으로 DOM 기반 구문 분석 모델은 스트리밍 기반 방식보다 훨씬 많은 메모리를 사용합니다. 일반적으로 HTML을 사용하려는 프로세스는 한 번에 사용할 수있는 몇 가지 요소 만 필요할 수 있기 때문입니다.

누구든지 XmlReader 클래스와 비슷한 방식으로 HTML을 구문 분석 할 수있는 .Net 용 괜찮은 HTML 파서를 알고 있습니까? 즉 순방향 스트리밍 방식으로

인기 답변

나는 이것을 위해 보통 SgmlReader를 사용한다 : https://github.com/MindTouch/SGMLReader

다른 사람들이 말했듯이, HTML은 XML의 올바른 형식의 규칙을 따르지 않기 때문에 본질적으로 구문 분석하기가 어렵지만 SgmlReader는 대개 꽤 잘합니다.




아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.