C # HTMLAgilityPack HTML to Text - Parse Errors

c# html-agility-pack html-parsing

Domanda

Ho bisogno di estrarre il testo da un file HTML usando C #. Sto cercando di utilizzare HTMLAgilityPack ma vedo alcuni errori di analisi (tag non chiusi). Sto usando queste due opzioni:

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

Esiste un'opzione di tipo "Correggi tutto". Non mi importa degli errori, voglio solo il contenuto o chiudere.

Risposta accettata

Forse questo è un rimedio, ma una volta che ho dovuto estrarre il testo da HTML ho usato espressioni regolari:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");


Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché
Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché