Ich muss Text aus einer HTML-Datei mit C # extrahieren. Ich versuche, HTMLAgilityPack zu verwenden, aber ich sehe einige Parse-Fehler (Tags nicht geschlossen). Ich verwende diese zwei Optionen:
htmlDoc.OptionFixNestedTags = true;
htmlDoc.OptionAutoCloseOnEnd = true;
Gibt es eine Option "Alle fixieren"? Ich interessiere mich nicht für die Fehler, ich will nur den Inhalt oder schließen.
Vielleicht ist das eine Problemumgehung, aber sobald ich Text aus HTML extrahieren musste, benutzte ich regex:
result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");