¿Hay un equivalente de XmlReader para HTML en .Net?

.net html html-agility-pack parsing xmlreader

Pregunta

He usado HtmlAgilityPack en el pasado para analizar HTML en .Net, pero no me gusta el hecho de que solo use un modelo DOM.

En documentos grandes y / o en aquellos con altos niveles de anidamiento, es posible que se produzcan excepciones de desbordamiento de pila o de memoria insuficiente. Además, en general, un modelo de análisis basado en DOM utiliza significativamente más memoria que un enfoque basado en transmisión, generalmente porque el proceso que quiere consumir el HTML puede necesitar solo unos pocos elementos para estar disponibles al mismo tiempo.

¿Alguien sabe de un analizador HTML decente para .Net que le permita analizar HTML de una manera similar a la clase XmlReader ? es decir, en una forma de transmisión sólo hacia adelante

Respuesta popular

Generalmente uso SgmlReader para esto: https://github.com/MindTouch/SGMLReader

Como han dicho otros, hay problemas en que HTML no sigue las mismas reglas bien formadas de XML, por lo que es intrínsecamente difícil de analizar, pero SgmlReader generalmente hace un trabajo bastante bueno.



Related

Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué