Necesito extraer texto de un archivo HTML usando C #. Estoy tratando de usar HTMLAgilityPack pero veo algunos errores de análisis (etiquetas no cerradas). Estoy usando estas dos opciones:
htmlDoc.OptionFixNestedTags = true;
htmlDoc.OptionAutoCloseOnEnd = true;
¿Hay alguna opción de tipo "Reparar todo"? No me importan los errores, solo quiero el contenido o cerrar.
Tal vez esto sea una solución, pero una vez que tuve que extraer texto de HTML usé regex:
result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");