Obtención de la posición del sitio de resultados de búsqueda de Google

.net c# google-search html-agility-pack parsing

Pregunta

Quiero codificar algún algoritmo o analizador que debería obtener la posición del sitio en los resultados de búsqueda de Google. El problema es que cada vez que el diseño de la página de Google cambie, debo corregir / cambiar el algoritmo. ¿Cómo crees que los chicos realmente cambiarán a menudo? ¿Existen técnicas / consejos / trucos para determinar la posición del sitio de Google?

¿Cómo puedo hacer un algoritmo robusto de detección de posición?

Quiero usar C #, .NET 2.0 y HtmlAgilityPack para ese propósito. Cualquier consejo o propuesta será muy apreciado. Gracias de antemano, chicos!


ACTUALIZACIÓN POSTAL

Sé que Google mostrará captcha para evitar consultas de la máquina. Conseguí un servicio especial para eso, que reconocerá cualquier captcha. ¿Podrían hablarme de su experiencia en los resultados de raspado exactos?

Respuesta aceptada

Pregunté sobre esto hace un año y obtuve algunas buenas respuestas. Definitivamente el paquete Agility es el camino a seguir.

Al final hicimos codificar hasta un raspador rugosa que hizo el trabajo y funcionó sin problemas. Estábamos golpeando a Google relativamente a la ligera (aproximadamente 25 consultas por día). Tomamos la precaución de asignar al azar 1) el orden y 2) la hora del día y 3) el tiempo en pausa entre consultas. No sé si algo de eso ayudó, pero nunca fuimos alcanzados por un captcha.

No nos molestamos mucho con eso ahora.

Sus principales debilidades fueron:

  • solo nos molestamos en revisar la primera página (quizás podríamos haber codificado una versión mejorada que revisaba las primeras X páginas, pero tal vez eso sería un mayor riesgo, en términos de ser detectado por Google).

  • Sus resultados fueron poco fiables y saltaron por todos lados. Puede ser octavo todos los días durante semanas, excepto por un solo día aleatorio cuando fue tercero. Quizás ... toda la idea de tomar cuidadosamente una lectura diaria o semanal y registrar nuestra clasificación es demasiado errónea

Para responder a su pregunta sobre Google rompiendo su código: Google no hizo un cambio fundamental en todos los meses que lo ejecutamos, pero cambió algo que rompió la "instantánea" que estábamos guardando del resultado (¿quizás un cambio de CSS?) Que No hizo nada para mejorar la credibilidad de los resultados.


Respuesta popular

Google ofrece una gran cantidad de API para acceder a sus servicios. Para buscar está la API de búsqueda personalizada .



Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué