разбор ссылок и таблиц с помощью VB.net HTML AgilityPack

.net html-agility-pack vb.net

Вопрос

Я пытаюсь выполнить скрипинг экрана и обнаружил HTML AgilityPack, но у меня есть некоторые проблемы с тем, как использовать его с VB.net.

Первое, что я хочу сделать, это найти строку URL для тега HREF, если я знаю текст, заключенный в HREF.

Во-вторых, я хочу, чтобы это проанализировать таблицу HTML, пройти через каждую строку и вытащить данные, чтобы я мог сохранить ее в базе данных (после некоторого базового анализа).

Принятый ответ

Вот хорошая стартовая ссылка здесь: SO: Как использовать пакет гибкости HTML

См. Также: Пример HtmlAgilityPack для смены ссылок не работает. Как это сделать?

И это: поиск всех HREF-адресов в документе HTML (даже в некорректном HTML)

Чтобы найти конкретный HREF, синтаксис xpath будет «// a [@ href = 'ваш url]], что означает:« получить тег A, у которого атрибут HREF равен «вашему URL».

РЕДАКТИРОВАТЬ:

Чтобы найти HREF, если вы знаете только текст, например, если у вас есть html-текст « <a href="homepage.html">Cars</a> » и найдите домашнюю страницу.html, тогда вы так и сделаете Это.

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));


Related

Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow
Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow