analizzando i collegamenti e le tabelle utilizzando VB.net HTML AgilityPack

.net html-agility-pack vb.net

Domanda

Sto cercando di fare un po 'di screen scraping e ho scoperto l'HTML AgilityPack, ma sto avendo qualche problema a capire come usarlo con VB.net.

La prima cosa che voglio fare è trovare la stringa URL per un tag HREF se conosco il testo che è racchiuso nell'HREF.

La seconda cosa che voglio fare è analizzare una tabella HTML, esaminare ogni riga e estrarre i dati in modo da poterli salvare su un database (dopo alcune analisi di base).

Risposta accettata

Ecco un buon link di partenza qui su SO: Come usare il pacchetto Agility HTML

Vedi anche questo: l'esempio di HtmlAgilityPack per la modifica dei link non funziona. Come posso realizzare questo?

E questo: trovare tutti gli URL A HREF in un documento HTML (anche in HTML malformato)

Per trovare un HREF specifico, la sintassi xpath sarebbe "// a [@ href = 'your url']", che significa: "ottieni un tag A che ha un attributo HREF uguale a 'tuo url'.

MODIFICARE:

Per trovare un HREF se conosci solo il testo, ad esempio se hai il testo html ' <a href="homepage.html">Cars</a> ' e cerchi homepage.html, allora questo è come faresti esso.

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));



Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché
Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché