C # HTMLAgilityPack HTML для текста - ошибки анализа

c# html-agility-pack html-parsing

Вопрос

Мне нужно извлечь текст из файла HTML с помощью C #. Я пытаюсь использовать HTMLAgilityPack, но я вижу некоторые ошибки анализа (теги не закрыты). Я использую эти два варианта:

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

Есть ли опция «Исправить все». Я не забочусь об ошибках, я просто хочу контент или закрыть.

Принятый ответ

Возможно, это обходное решение, но как только мне пришлось извлечь текст из HTML, я использовал regex:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");


Related

Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow
Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow