Esiste un equivalente XmlReader per HTML in .Net?

.net html html-agility-pack parsing xmlreader

Domanda

Ho usato HtmlAgilityPack in passato per analizzare HTML in .Net ma non mi piace il fatto che usi solo un modello DOM.

Su documenti di grandi dimensioni e / o con livelli elevati di nidificazione è possibile ottenere overflow dello stack o eccezioni di memoria esaurita. Inoltre, in generale, un modello di analisi basato su DOM utilizza una quantità di memoria significativamente maggiore rispetto a un approccio basato sul flusso, in genere perché il processo che desidera utilizzare l'HTML può richiedere solo pochi elementi alla volta.

Qualcuno sa di un parser HTML decente per .Net che consente di analizzare HTML in modo simile alla classe XmlReader ? vale a dire in una modalità di streaming solo in avanti

Risposta popolare

Di solito uso SgmlReader per questo: https://github.com/MindTouch/SGMLReader

Come altri hanno già detto, ci sono dei problemi in quanto HTML non segue le stesse regole ben formate dell'XML, quindi è intrinsecamente difficile da analizzare, ma SgmlReader di solito fa un buon lavoro.



Related

Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché
Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché