C#HTMLAgilityPack HTML to Text - Parse Errors

c# html-agility-pack html-parsing

我需要使用C#從HTML文件中提取文本。我正在嘗試使用HTMLAgilityPack,但我看到一些解析錯誤(標籤未關閉)。我正在使用這兩個選項:

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

有沒有“全部修復”類型選項。我不關心錯誤,我只想要內容或關閉。

一般承認的答案

也許這是解決方法,但一旦我不得不從HTML中提取文本我使用正則表達式:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");



許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因
許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因