J'utilise HtmlAgilityPack pour analyser une page HTML, j'extrais les balises HTML de cette page comme ceci:
HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");
en HTML renvoyé chaque balise contient la classe et id, je veux supprimer tous les id-s et toute la classe comment je peux le faire?
Vous devriez peut-être vérifier ce lien: lien .
Autant que je puisse dire, quand vous avez HtmlNode, vous pouvez utiliser ses attributs de propriété. Cette collection a la méthode Remove (chaîne) qui reçoit le nom de l'attribut que vous souhaitez supprimer. Eh bien, je l'ai utilisé comme ça dans un petit projet. Je ne sais pas si cela vous aide.
Donc en gros:
HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");
foreach(var node in all_text)
{
node.Attributes.Remove("class");
node.Attributes.Remove("id");
}