Io uso HtmlAgilityPack per analizzare una pagina html, estrao tag html da questa pagina in questo modo:
HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");
in html restituito ogni tag contiene classe e id, voglio rimuovere tutti gli id-s e tutte le classi come posso farlo?
Forse dovresti controllare questo link: link .
Per quanto posso, dire quando si ha HtmlNode che è possibile utilizzare la sua proprietà Attributi. Questa raccolta ha il metodo Remove (stringa) che riceve il nome dell'attributo che si desidera rimuovere. Bene, l'ho usato così in un piccolo progetto. Non sono sicuro che questo ti aiuti.
Quindi in poche parole:
HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");
foreach(var node in all_text)
{
node.Attributes.Remove("class");
node.Attributes.Remove("id");
}