C # HTMLAgilityPack HTML a texto - Errores de análisis

c# html-agility-pack html-parsing

Pregunta

Necesito extraer texto de un archivo HTML usando C #. Estoy tratando de usar HTMLAgilityPack pero veo algunos errores de análisis (etiquetas no cerradas). Estoy usando estas dos opciones:

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

¿Hay alguna opción de tipo "Reparar todo"? No me importan los errores, solo quiero el contenido o cerrar.

Respuesta aceptada

Tal vez esto sea una solución, pero una vez que tuve que extraer texto de HTML usé regex:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");


Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué