Ich benutze HtmlAgilityPack zum Parsen einer HTML-Seite, ich extrahiere HTML-Tags von dieser Seite wie folgt :
HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");
in zurückgegebenem HTML-Code enthält jedes Tag Klasse und ID, ich möchte alle ID-s und alle Klassen entfernen, wie kann ich das tun?
Vielleicht sollten Sie diesen Link überprüfen: Link .
Wenn ich HtmlNode habe, können Sie, soweit ich kann, dessen Eigenschaft Attribute verwenden. Diese Sammlung verfügt über die Methode Remove (Zeichenfolge), die den Namen des Attributs erhält, das Sie entfernen möchten. Nun, ich habe es so in einem kleinen Projekt verwendet. Ich bin mir nicht sicher, ob das dir hilft.
Also im Grunde genommen:
HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");
foreach(var node in all_text)
{
node.Attributes.Remove("class");
node.Attributes.Remove("id");
}