Supprimer toutes les classes et tous les identifiants du code HTML analysé avec HtmlAgilityPack

c# html html-agility-pack

Question

J'utilise HtmlAgilityPack pour analyser une page HTML, j'extrais les balises HTML de cette page comme ceci:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

en HTML renvoyé chaque balise contient la classe et id, je veux supprimer tous les id-s et toute la classe comment je peux le faire?

Réponse acceptée

Peut-être devriez-vous vérifier ce lien: lien .

Autant que je peux, dire quand vous avez HtmlNode, vous pouvez utiliser sa propriété Attributes Cette collection a la méthode Remove (chaîne) qui reçoit le nom de l'attribut que vous souhaitez supprimer. Eh bien, je l'ai utilisé comme ceci dans un petit projet. Je ne suis pas sûr que cela vous aide.

Donc en gros:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
} 



Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Est-ce KB légal? Oui, apprenez pourquoi
Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Est-ce KB légal? Oui, apprenez pourquoi