Análisis de enlaces y tablas usando VB.net HTML AgilityPack

.net html-agility-pack vb.net

Pregunta

Estoy tratando de hacer un raspado de pantalla y descubrí el paquete de agilidad HTML, pero tengo algunos problemas para descubrir cómo usarlo con VB.net.

Lo primero que quiero hacer es encontrar la cadena de URL para una etiqueta HREF si conozco el texto que está incluido en el HREF.

Lo segundo que quiero hacer es analizar una tabla HTML, revisar cada fila y extraer los datos para poder guardarlos en una base de datos (después de un análisis básico).

Respuesta aceptada

Aquí hay un buen enlace de inicio aquí en SO: Cómo usar el paquete de agilidad de HTML

Vea también esto: el ejemplo de HtmlAgilityPack para cambiar enlaces no funciona. ¿Cómo logro esto?

Y esto: encontrar todas las URL A HREF en un documento HTML (incluso en HTML con formato incorrecto)

Para encontrar un HREF específico, la sintaxis de xpath sería "// a [@ href = 'your url']", que significa: "obtener cualquier etiqueta A que tenga un atributo HREF igual a 'your url'.

EDITAR:

Para encontrar un HREF si solo conoce el texto, por ejemplo, si tiene el texto html ' <a href="homepage.html">Cars</a> ' y busca homepage.html, así es como lo haría eso.

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));


Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué