Google検索結果のサイトの位置を取得する

.net c# google-search html-agility-pack parsing

質問

私はいくつかのアルゴリズムやパーサーは、Googleの検索結果でサイトの位置を取得する必要がありますコーディングしたい。問題はGoogleのページレイアウトが変更されるたびに私はアルゴリズムを修正/変更する必要があります。みんなが本当にしばしば変わるだろうとどう思いますか? Googleのサイトの位置を特定する技術/アドバイス/トリックはありますか?

どのように堅牢な位置検出アルゴリズムを作成できますか?

私はその目的のためにC#、.NET 2.0、HtmlAgilityPackを使用したいと思います。アドバイスや提案は非常に高く評価されます。事前に感謝、みんな!


POST UPDATE

私はマシンのクエリを防ぐためにcaptchaを表示することをGoogleが知っている。私はそれのための特別なサービスを持って、それは任意のcaptchaを認識します。正確に結果をスクラップした経験について教えてもらえますか?

受け入れられた回答

はこれについて 1年前に尋ねて 、良い答えを得ました。間違いなくアジリティパックは道のりです。

最終的に私たち仕事をして何の問題もなく走った大まかなスクレーパーをコードしました。私たちは比較的軽くGoogleにヒットしていました(1日あたり約25件)。私たちは、1)順序と2)時間と3)クエリ間で一時停止する時間をランダム化するという予防策をとった。私が助けてくれたかどうかはわかりませんが、私たちはキャプチャを打つことはありませんでした。

私たちはそれほど気にしません。

主な弱点は次のとおりです。

  • 私たちは最初のページをチェックすることに気をつけました(おそらく最初のXページを見たエンハンスドバージョンをコード化できたかもしれませんが、おそらくそれはGoogleによって検出されるという点でより高いリスクです)。

  • その結果は信頼できず、跳ね上がった。あなたは3日目の1日ランダムな日を除いて、毎週8日になることができます。たぶん...毎日または毎週の読書を慎重に取ってランキングを記録するという考えはあまりにも欠陥があります

Googleがあなたのコードを壊すことに関するあなたの質問に答えるために:Googleは私たちが走ったすべての月に根本的に壊れた変更をしなかったが、結果を保存していた「スナップショット」を破ったものを変えた。結果の信頼性を向上させるために何もしなかった。


人気のある回答

Googleは、そのサービスにアクセスするために多数のAPIを提供しています。検索にはカスタム検索APIがあります




ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ