C # HTMLAgilityPack HTML to Text - Erreurs d'analyse

c# html-agility-pack html-parsing

Question

J'ai besoin d'extraire du texte d'un fichier HTML à l'aide de C #. J'essaie d'utiliser HTMLAgilityPack mais je constate des erreurs d'analyse (balises non fermées). J'utilise ces deux options:

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

Existe-t-il une option de type "Tout corriger". Je me fiche des erreurs, je veux juste le contenu ou fermer.

Réponse acceptée

C'est peut-être une solution de contournement, mais une fois que j'ai dû extraire du texte à partir de HTML, j'ai utilisé regex:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");


Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Est-ce KB légal? Oui, apprenez pourquoi
Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Est-ce KB légal? Oui, apprenez pourquoi