C#HTMLAgilityPack HTMLからテキスト - 解析エラー

c# html-agility-pack html-parsing

質問

私はC#を使用してHTMLファイルからテキストを抽出する必要があります。私はHTMLAgilityPackを使用しようとしていますが、いくつかの解析エラー(タグは閉じられていません)が表示されています。私はこれらの2つのオプションを使用しています:

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

「すべて修正」タイプのオプションがありますか?私はエラーについて気にしない、私はちょうど内容を望むか閉じる。

受け入れられた回答

たぶんこれは回避策ですが、HTMLからテキストを抽出しなければ正規表現を使用しました。

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");


Related

ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow