¿Enmascara sus actividades de raspado web para que parezcan las actividades normales de navegación del navegador?

c# html-agility-pack web-scraping

Pregunta

Estoy usando el Html Agility Pack y sigo recibiendo este error. "El servidor remoto devolvió un error: (500) Error interno del servidor". en ciertas páginas.

Ahora no estoy seguro de qué es esto, ya que puedo usar Firefox para llegar a estas páginas sin ningún problema.

Tengo la sensación de que el sitio web en sí está bloqueando y no está enviando una respuesta. ¿Hay alguna manera de hacer que mi paquete de agilidad HTML sea más parecido a una llamada que se está llamando desde FireFox?

Ya he configurado un temporizador allí, por lo que solo se envía al sitio web cada 20 segundos.

¿Hay algún otro método que pueda usar?

Respuesta aceptada

Establecer un User-Agent similar a un navegador regular. Un agente de usuario es un encabezado http que pasa el cliente http (navegador) para identificarse en el servidor.


Respuesta popular

Hay muchas maneras en que los servidores pueden detectar raspados y es realmente una carrera de armamentos entre el raspador y el raspador (?), Dependiendo de qué tan malo u otro quiera acceder / proteger los datos. Algunas de las cosas para ayudarte a pasar desapercibido son:

  1. Asegúrese de que todos los encabezados http enviados sean los mismos que los de un navegador normal, especialmente el agente de usuario y el remitente de URL.
  2. Descargue todas las imágenes y scripts css como lo haría un navegador normal, en el orden en que lo haría un navegador.
  3. Asegúrese de que las cookies que se configuran se envían con cada solicitud posterior
  4. Asegúrese de que las solicitudes estén limitadas de acuerdo con los sitios robots.txt
  5. Asegúrese de no seguir ningún enlace de no seguir porque el servidor podría estar configurando un honeypot donde dejen de atender sus solicitudes de IP
  6. Consigue un montón de servidores proxy para variar tu dirección IP
  7. Asegúrate de que el sitio no haya comenzado a enviarte captcha porque creen que eres un robot.

De nuevo, la lista podría continuar dependiendo de lo sofisticada que sea la configuración del servidor.




Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué