Извлечение изображений URL из html в c # с использованием html agility pack и их запись в XML-файле

c# html-agility-pack xml

Вопрос

Я новичок в c #, и мне действительно нужна помощь в решении следующей проблемы. Я хочу извлечь URL-адреса фотографий с веб-страницы с определенным шаблоном. Например, я хочу извлечь все изображения, которые имеют следующий шаблон name_412s.jpg. Я использую следующий код для извлечения изображений из html, но я не знаю, как его адаптировать.

public void Images()
    {
        WebClient x = new WebClient();
        string source = x.DownloadString(@"http://www.google.com");

        HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
        document.Load(source);

        foreach(HtmlNode link in document.DocumentElement.SelectNodes("//img")
        {
          images[] = link["src"];
       }
}

Мне также нужно написать результаты в XML-файле. Можете ли вы также помочь мне в этом?

Спасибо !

Принятый ответ

Чтобы ограничить результаты запроса, вам нужно добавить условие к вашему XPath. Например, //img[contains(@src, 'name_412s.jpg')] ограничивает результаты только элементами img которые имеют атрибут src который содержит это имя файла.

Что касается вывода результатов в XML, вам нужно будет создать новый XML-документ, а затем скопировать в него соответствующие элементы. Поскольку вы не сможете напрямую импортировать узел HtmlAgilityPack в XmlDocument, вам придется вручную скопировать все атрибуты. Например:

using System.Net;
using System.Xml;

// ...

public void Images()
{
    WebClient x = new WebClient();
    string source = x.DownloadString(@"http://www.google.com");
    HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
    document.Load(source);
    XmlDocument output = new XmlDocument();
    XmlElement imgElements = output.CreateElement("ImgElements");
    output.AppendChild(imgElements);
    foreach(HtmlNode link in document.DocumentElement.SelectNodes("//img[contains(@src, '_412s.jpg')]")
    {
        XmlElement img = output.CreateElement(link.Name);
        foreach(HtmlAttribute a in link.Attributes)
        {
            img.SetAttribute(a.Name, a.Value)
        }
        imgElements.AppendChild(img);
    }
    output.Save(@"C:\test.xml");
}


Related

Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow
Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow