どのように動的に生成されたWebページを読み込む?

c# data-scrubbing html html-agility-pack

質問

私はウェブページ、 http: //www.artstation.com/artist/nicotineをロードしようとしているので、ページをスクラブすることができます。残念ながら、ページはコードで生成されているように見えます。 。

それが生成するコンテンツではなく、ソースのjavascriptのみを読み込むため、次のコードを読み込んでも機能しません。

HtmlWeb htmlWeb = new HtmlWeb();
imagepage = htmlWeb.Load(http://www.artstation.com/artist/nicotine);

ブラウザで表示されているページをどのように読み込んでタグをスクラブできるようにするには?

人気のある回答

これにはHtmlAgilityPackは使用できません。 HAPがサーバーにあなたにページファイルを与えるように要求しているとき、このファイルの内容はまだWebブラウザによって解析/実行されていないので、JavaScriptはまだ何もしていません。

このための回避策があります。 セレンまたはファントムを使用して、動的に生成されたタグの内容を取得できます。これらのツールはブラウザスタックを持ち、JavaScriptを実行します。このような多くのツールや例がたくさんあります。




ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ