HTML Agility Pack - 在特定节点之后选择节点

asp.net c# html html-agility-pack

在codeplex讨论中提出了这个问题但我希望能在stackoverflow上得到更快的答案。

因此,我使用HTML Agility Pack在C#中进行HTML解析。我有以下html结构:

<body>
   <p class="paragraph">text</p>
   <p class="paragraph">text</p>
   <p class="specific">text</p>
   <p class="paragraph">text</p>
   <p class="paragraph">text</p>
</body>

而且我需要获得所有带有“段落”的p元素,这些元素存在于带有“特定”类的p元素之后。

有没有办法做到这一点?

谢谢。

一般承认的答案

在Mark的例子中使用.Class(如果不存在,替换适当的东西)

使用SkipWhile

例如在LINQPad中你得到5,6,7来自:

int[] a = { 6, 5, 6 ,7 };
a.SkipWhile(x=>x!=6).Skip(1).Dump();

因此,根据SelectNodes返回的类型,可以:

.SelectNodes( "/p" ).SkipWhile( p => p.Class != "specific" ).Skip(1)

要么

.SelectNodes( "/p" ).Cast<XX>().SkipWhile( p => p.Class != "specific" ).Skip(1)

(或丑陋的版本)

.SelectNodes( "/p" ).SkipWhile( p => ((XX)p).Class != "specific" ).Skip(1)

(或者在某些情况下 - 如果您的表达式已经过适当过滤,则不会

.SelectNodes( "/p" ).OfType<XX>().SkipWhile( p => p.Class != "specific" ).Skip(1)

编辑:我可能会创建一个扩展方法:

static class HapExtensions
{
    public IEnumerable<T> SkipUntilAfter( this IEnumerable<T> sequence, Predicate<T> predicate) {
        return sequence.SkipWhile( predicate).Skip(1);
       }
}

有人关心为此搜索现有技术吗?有什么好名字的建议?


热门答案

尝试这个

bool latterDayParagraphs = false;
List<DocumentNode> nodes = new List<DocumentNode>();
foreach(var pElement in doc.DocumentNode.SelectNodes("/p"))
{
   if(pElement.Class != "paragraph") 
   {
      latterDayParagraphs = true;
      continue;
   }
   if(latterDayParagraphs)
   {
      nodes.Add(pElement);
   }
}


许可下: CC-BY-SA with attribution
不隶属于 Stack Overflow
这个KB合法吗? 是的,了解原因
许可下: CC-BY-SA with attribution
不隶属于 Stack Overflow
这个KB合法吗? 是的,了解原因