使用HtmlAgilityPack从解析的HTML中删除所有类和ID

c# html html-agility-pack

我使用HtmlAgilityPack解析一些html页面,我从这个页面中提取html标签,如下所示:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

在返回的html中,每个标记都包含类和id,我想删除所有id-s和所有类,我怎么能这样做?

一般承认的答案

也许你应该检查这个链接: 链接

尽我所能,告诉你何时拥有HtmlNode,你可以使用它的属性Attributes。此集合具有方法Remove(string),该方法接收要删除的属性的名称。好吧,我在一个小项目中使用它。我不确定这对你有帮助。

所以基本上:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
} 


Related

许可下: CC-BY-SA with attribution
不隶属于 Stack Overflow
这个KB合法吗? 是的,了解原因
许可下: CC-BY-SA with attribution
不隶属于 Stack Overflow
这个KB合法吗? 是的,了解原因