Ermitteln der Website-Position von Google-Suchergebnissen

.net c# google-search html-agility-pack parsing

Frage

Ich möchte einen Algorithmus oder Parser programmieren, der die Position der Website in den Google-Suchergebnissen erreichen soll. Das Problem ist jedes Mal, wenn sich Google Seitenlayout ändert, sollte ich den Algorithmus korrigieren / ändern. Wie denkst du, Jungs wird sich wirklich oft ändern? Gibt es Techniken / Tipps / Tricks, um die Position von Google zu bestimmen?

Wie kann ich einen robusten Positionserkennungsalgorithmus erstellen?

Ich möchte C #, .NET 2.0 und HtmlAgilityPack für diesen Zweck verwenden. Alle Ratschläge oder Vorschläge werden sehr geschätzt. Vielen Dank im Voraus, Jungs!


NACH UPDATE

Ich weiß, dass Google Captcha zeigen wird, um Maschinenabfragen zu verhindern. Dafür habe ich einen speziellen Service, der jedes Captcha erkennt. Könnten Sie mir etwas über Ihre Erfahrung mit exakten Scrapergebnissen erzählen?

Akzeptierte Antwort

Ich habe vor einem Jahr danach gefragt und ein paar gute Antworten bekommen. Auf jeden Fall ist das Agility Pack der richtige Weg.

Am Ende haben wir einen groben Schaber Code bis die den Job gemacht und lief ohne Probleme. Wir haben Google relativ leicht getroffen (etwa 25 Anfragen pro Tag). Wir haben die Vorsichtsmaßnahme getroffen, um 1) die Reihenfolge und 2) Tageszeit und 3) zwischen den Abfragen pausiert zu haben. Ich weiß nicht, ob das irgendwas half, aber wir wurden nie von einem Captcha getroffen.

Wir kümmern uns jetzt nicht viel darum.

Ihre Hauptschwächen waren / sind:

  • Wir haben nur die erste Seite überprüft (wir hätten vielleicht eine verbesserte Version kodieren können, die die ersten X-Seiten betrachtet, aber vielleicht wäre das ein höheres Risiko - in Bezug auf die Entdeckung durch Google).

  • Die Ergebnisse waren unzuverlässig und sprangen umher. Du könntest acht Wochen lang jeden Tag acht sein, außer an einem einzigen zufälligen Tag, an dem du Dritter warst. Vielleicht ... ist die ganze Idee, täglich oder wöchentlich sorgfältig unsere Rangliste zu lesen und zu protokollieren, zu fehlerhaft

Um Ihre Frage zu Google zu beantworten, die Ihren Code bricht: Google hat in all den Monaten, in denen wir es ausgeführt haben, keine grundlegenden Änderungen vorgenommen, aber sie haben etwas verändert , was den "Schnappschuss" des Ergebnisses (vielleicht eine CSS-Änderung?) hat nichts getan, um die Glaubwürdigkeit der Ergebnisse zu verbessern.


Beliebte Antwort

Google bietet eine Fülle von APIs für den Zugriff auf ihre Dienste. Für die Suche gibt es die benutzerdefinierte Such-API .



Lizenziert unter: CC-BY-SA with attribution
Nicht verbunden mit Stack Overflow
Ist diese KB legal? Ja, lerne warum
Lizenziert unter: CC-BY-SA with attribution
Nicht verbunden mit Stack Overflow
Ist diese KB legal? Ja, lerne warum