Cómo raspar los datos en una página con un botón de jQuery usando el paquete HtmlAgility

html-agility-pack web-crawler web-scraping

Pregunta

Estoy tratando de eliminar datos de una página con contenido similar (sitio web de compras) utilizando el paquete HtmlAgility.

Hay un botón para cargar más artículos diseñados de etiqueta. Al hacer clic, carga más artículos en la misma página.

Si está diseñado usando una etiqueta, obtendré los siguientes elementos utilizando la URL del atributo href en la etiqueta y también cargaré una nueva página para los nuevos elementos siguientes, así que no hay problema.

Pero aquí no hay nuevos URL y elementos cargados en la misma página.

Entonces, ¿hay alguna manera de obtener esta funcionalidad implementada? ¿Cómo activar ese botón de cargar más para obtener más elementos?

Respuesta aceptada

HtmlAgilityPack es un analizador html solo, solo sabe analizar un documento html estático. Lo que quieras puede lograrse usando el controlador web de selenio .

Otra posibilidad es - si el número de acciones de carga de elementos es para que pueda completar la carga manualmente - hágalo y guarde el html resultante localmente, y solo después use HtmlAgiliyPack para analizar el html estático que almacenó localmente (en lugar de analizar la respuesta http) ).

Comparte el enlace del sitio del que estás hablando para poder agregar algunos fragmentos de código para ejemplificar.



Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué