如何使用Html Agility Pack获取img / src或/ hrefs?

.net c# html html-agility-pack html-parsing

我想使用HTML敏捷包来解析HTML页面中的图像和href链接,但我对XML或XPath不太了解。虽然在许多网站上查找帮助文档,但我无法解决问题。另外,我在VisualStudio 2005中使用C#。我只是不能流利地说英语,所以,我将真诚地感谢能够写一些有用的代码。

一般承认的答案

主页上的第一个示例非常相似,但请考虑:

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm"); // would need doc.LoadHtml(htmlSource) if it is not a file
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    string href = link["href"].Value;
    // store href somewhere
 }

所以你可以想象,对于img @ src,只需用img替换每个a ,用src替换href 。您甚至可以简化为:

 foreach(HtmlNode node in doc.DocumentElement
              .SelectNodes("//a/@href | //img/@src")
 {
    list.Add(node.Value);
 }

对于相对URL处理,请查看Uri类。


热门答案

示例和接受的答案是错误的。它不能使用最新版本进行编译。我尝试别的东西:

    private List<string> ParseLinks(string html)
    {
        var doc = new HtmlDocument(); 
        doc.LoadHtml(html);
        var nodes = doc.DocumentNode.SelectNodes("//a[@href]");
        return nodes == null ? new List<string>() : nodes.ToList().ConvertAll(
               r => r.Attributes.ToList().ConvertAll(
               i => i.Value)).SelectMany(j => j).ToList();
    }

这对我有用。



许可下: CC-BY-SA with attribution
不隶属于 Stack Overflow
这个KB合法吗? 是的,了解原因
许可下: CC-BY-SA with attribution
不隶属于 Stack Overflow
这个KB合法吗? 是的,了解原因