Удалите все классы и идентификаторы из разобранного HTML с помощью HtmlAgilityPack

c# html html-agility-pack

Вопрос

Я использую HtmlAgilityPack для разбора некоторой html-страницы, я извлекаю html-теги с этой страницы следующим образом:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

в возвращаемом html каждый тег содержит класс и id, я хочу удалить все id-s и все классы, как я могу это сделать?

Принятый ответ

Возможно, вы должны проверить эту ссылку: ссылку .

Насколько я могу судить, когда у вас есть HtmlNode, вы можете использовать его атрибуты свойств. В этой коллекции есть метод Remove (string), который получает имя атрибута, который вы хотите удалить. Ну, я использовал это в одном маленьком проекте. Я не уверен, что это поможет вам.

Итак, в основном:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
} 


Related

Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow
Является ли этот КБ законным? Да, узнайте, почему
Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow
Является ли этот КБ законным? Да, узнайте, почему