Parsen von Links und Tabellen mit HTML AgilityPack von VB.net

.net html-agility-pack vb.net

Frage

Ich versuche, etwas scraping zu machen, und habe das HTML AgilityPack entdeckt, habe aber einige Probleme herauszufinden, wie man es mit VB.net benutzt.

Das erste, was ich tun möchte, ist die URL-Zeichenfolge für ein HREF-Tag zu finden, wenn ich den Text kenne, der in der HREF enthalten ist.

Die zweite Sache ist, dass ich eine HTML-Tabelle analysiere, jede Zeile durchgehen und die Daten herausziehen möchte, um sie in einer Datenbank zu speichern (nach einer grundlegenden Analyse).

Akzeptierte Antwort

Hier ist ein guter Start Link hier auf SO: Wie HTML Agility Pack zu verwenden

Siehe auch: HtmlAgilityPack-Beispiel zum Ändern von Links funktioniert nicht. Wie erreiche ich das?

Und das: Finden aller A HREF-URLs in einem HTML-Dokument (auch in fehlerhaftem HTML)

Um einen bestimmten HREF zu finden, wäre die xpath-Syntax "// a [@ href = 'deine URL']", was bedeutet: "hol dir ein A-Tag, das ein HREF-Attribut hat, das deiner URL entspricht.

BEARBEITEN:

Um einen HREF zu finden, wenn Sie nur den Text kennen, zum Beispiel wenn Sie den HTML-Text ' <a href="homepage.html">Cars</a> haben und nach homepage.html suchen, dann würden Sie so <a href="homepage.html">Cars</a> es.

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));



Lizenziert unter: CC-BY-SA with attribution
Nicht verbunden mit Stack Overflow
Ist diese KB legal? Ja, lerne warum
Lizenziert unter: CC-BY-SA with attribution
Nicht verbunden mit Stack Overflow
Ist diese KB legal? Ja, lerne warum