Rimuovi tutte le classi e gli ID da HTML analizzato con HtmlAgilityPack

c# html html-agility-pack

Domanda

Io uso HtmlAgilityPack per analizzare una pagina html, estrao tag html da questa pagina in questo modo:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

in html restituito ogni tag contiene classe e id, voglio rimuovere tutti gli id-s e tutte le classi come posso farlo?

Risposta accettata

Forse dovresti controllare questo link: link .

Per quanto posso, dì quando hai HtmlNode puoi usare i suoi Attributi di proprietà. Questa raccolta ha il metodo Remove (stringa) che riceve il nome dell'attributo che si desidera rimuovere. Beh, l'ho usato così in un piccolo progetto. Non sono sicuro se questo ti aiuta.

Quindi in poche parole:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
} 


Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché
Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché