HtmlAgilityPackを使用して解析されたHTMLからすべてのクラスとIDを削除する

c# html html-agility-pack

質問

私はいくつかのHTMLページを解析するためにHtmlAgilityPackを使用します。このようにこのページからhtmlタグを抽出します:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

返されたHTMLでは、各タグにclassとidが含まれています。すべてのid-sクラスとすべてのクラスを削除したいのですが、これをどのように行うことができますか?

受け入れられた回答

たぶんこのリンク: linkをチェックしてください

私ができる限り、あなたがHtmlNodeを持っているときにそのプロパティの属性を使うことができます。このコレクションには、削除する属性の名前を受け取るRemove(文字列)メソッドがあります。まあ、私は小さなプロジェクトでこれを使いました。これがあなたに役立つかどうかはわかりません。

だから基本的に:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
} 


Related

ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ