Elimine todas las clases e identificaciones del HTML analizado con HtmlAgilityPack

c# html html-agility-pack

Pregunta

Utilizo HtmlAgilityPack para analizar una página html, extraigo etiquetas html de esta página de esta manera:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

En el código HTML devuelto, cada etiqueta contiene clase e id. Quiero eliminar todas las id-s y todas las clases. ¿Cómo puedo hacer esto?

Respuesta aceptada

Tal vez debería revisar este enlace: enlace .

Por lo que puedo, dile que cuando tienes HtmlNode puedes usar su propiedad Atributos. Esta colección tiene el método Eliminar (cadena) que recibe el nombre del atributo que desea eliminar. Bueno, lo usé así en un pequeño proyecto. No estoy seguro de si esto te ayuda.

Así que básicamente:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
} 


Related

Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow