Html Agility Pack - 按ID或类删除标签

c# html-agility-pack

这是我简化的HTML:

<html>
  <body>
    <div id="mainDiv">
       <div id="divToRemove"></div>
       <div id="divToKeep"></div>
       <div class="divToRemove"></div>
       <div class="divToRemove"></div>
    </div>
  </body>
</html>

我想删除名为“divToRemove”的ID或类的div,然后我只想选择名为“mainDiv”的div(在HtmlNode中)。

结果应该是:

   <div id="mainDiv">
       <div id="divToKeep"></div>
   </div>

我怎么能用Html Agility Pack做到这一点?

谢谢!

一般承认的答案

以下代码是根据此Html Agility Pack论坛页面改编的,以满足您的需求。基本上,我们将获取所有div然后循环遍历它们并检查他们的类或他们的id匹配。如果它在那里删除它。

var divs = htmldoc.DocumentNode.SelectNodes("//div");
if (divs != null)
{
    foreach (var tag in divs)
    {
        if (tag.Attributes["class"] != null && string.Compare(tag.Attributes["class"].Value, "divToRemove", StringComparison.InvariantCultureIgnoreCase) == 0)
        {
            tag.Remove();
        } else if(tag.Attributes["id"] != null && string.Compare(tag.Attributes["id"].Value, "divToRemove", StringComparison.InvariantCultureIgnoreCase) == 0) {
            tag.Remove();
        }
    }
}

你也可以将这些if语句组合成一个大的if语句,但我认为这个答案更好。

最后,选择您要查找的节点...

var mainDiv = htmldoc.DocumentNode.SelectSingleNode("//div[@id='mainDiv']");

热门答案

就个人而言,我更喜欢使用HtmlAgilityPack的Linq方法。 select会很长,但相对简单 - 只需选择具有正确id和/或类的节点,然后在其上调用Remove()方法。

foreach (var node in doc.DocumentNode.Descendants("div")
    .Where(n => n.Id.Equals("divToRemove", StringComparison.InvariantCultureIgnoreCase) 
        || n.GetAttributeValue("class", string.Empty).Equals("divToRemove", StringComparison.InvariantCultureIgnoreCase)))
    node.Remove();
HtmlNode mainNode = doc.DocumentNode.Descendants("div").Where(n => n.Id.Equals("mainDiv", StringComparison.InvariantCultureIgnoreCase).First();


许可下: CC-BY-SA with attribution
不隶属于 Stack Overflow
这个KB合法吗? 是的,了解原因
许可下: CC-BY-SA with attribution
不隶属于 Stack Overflow
这个KB合法吗? 是的,了解原因