Existe-t-il un équivalent de XmlReader pour HTML dans .Net?

.net html html-agility-pack parsing xmlreader

Question

J'ai déjà utilisé HtmlAgilityPack pour analyser HTML en .Net, mais je n'aime pas le fait qu'il utilise uniquement un modèle DOM.

Sur des documents volumineux et / ou avec des niveaux d'imbrication élevés, il est possible de provoquer des dépassements de capacité de la pile ou des exceptions de mémoire insuffisante. De même, en général, un modèle d'analyse basé sur le DOM utilise beaucoup plus de mémoire qu'une approche basée sur la diffusion en continu, généralement parce que le processus qui souhaite utiliser le code HTML peut ne nécessiter que quelques éléments à la fois.

Est-ce que quelqu'un connaît un analyseur HTML décent pour .Net qui vous permet d'analyser le HTML d'une manière similaire à la classe XmlReader ? c'est-à-dire de manière continue uniquement en streaming

Réponse populaire

J'utilise habituellement SgmlReader pour cela: https://github.com/MindTouch/SGMLReader

Comme d'autres l'ont dit, il existe des problèmes car HTML ne suit pas les mêmes règles XML bien formées. Il est donc difficile à analyser, mais SgmlReader fait généralement un très bon travail.



Related

Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow