Wie lädt man dynamisch generierte Webseiten?

c# data-scrubbing html html-agility-pack

Frage

Ich versuche, die Webseite, http://www.artstation.com/artist/nicotine , zu laden, damit ich die Seite schrubben kann, leider scheint die Seite über den Code erzeugt zu werden, so dass die Tags, nach denen ich suche, nicht verfügbar sind .

Das Laden mit dem folgenden funktioniert nicht, da nur das Quelljavascript geladen wird und nicht der Inhalt, der generiert wird:

HtmlWeb htmlWeb = new HtmlWeb();
imagepage = htmlWeb.Load(http://www.artstation.com/artist/nicotine);

Wie kann ich die Seite, die im Browser angezeigt wird, laden, damit ich sie für die Tags scrubben kann?

Beliebte Antwort

Sie können HtmlAgilityPack dafür nicht verwenden. Wenn HAP den Server auffordert, Ihnen die Auslagerungsdatei zu geben, wurde der Inhalt dieser Datei noch nicht von einem Webbrowser geparst / ausgeführt und das JavaScript hat damit noch nichts getan.

Dafür gibt es eine Arbeit. Sie können mit Selen oder PhantomJS den Inhalt dynamisch generierten Tags zu erhalten. Diese Werkzeuge haben einen Browser-Stack und es wird das JavaScript ausgeführt. Sie können viele andere Werkzeuge wie dieses und viele Beispiele finden.



Lizenziert unter: CC-BY-SA with attribution
Nicht verbunden mit Stack Overflow
Ist diese KB legal? Ja, lerne warum
Lizenziert unter: CC-BY-SA with attribution
Nicht verbunden mit Stack Overflow
Ist diese KB legal? Ja, lerne warum