C # datos de raspado de sitios web

c# html-agility-pack

Pregunta

Hola soy bastante nuevo en la esfera C #. Estado en PHP y JavaScript desde principios de este año. Quiero desechar posts y comentarios de un blog. El sitio es http://www.somewhereinblog.net

Lo que quiero hacer es 1. Quiero iniciar sesión usando un software 2. Luego descargue el html 3. Luego use expresiones regulares, xpath lo que sea útil para separar el contenido de las publicaciones y comentarios

He estado buscando por todas partes. Entendido muy poco. Aunque estoy bastante seguro de que necesito usar 'htmlagilitypack'. No sé cómo agregar una biblioteca a c # consola o aplicación de formulario. ¿Puede alguien ayudarme? Necesito mucho esto. Y no estoy demasiado en C # solo una semana. Así que agradecería si hay alguna información detallada. Esperando con impaciencia.

Gracias de antemano hermanos.

Respuesta aceptada

  1. Usando Webclient puedes iniciar sesión y descargar
  2. En su lugar, html-agility-pack me gusta CsQuery porque le permite usar la sintaxis jQuery dentro de una cadena en el código C #, para que pueda descargar a una cadena el html y buscar y hacer cosas como con jQuery y la página HTML.


Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
¿Es esto KB legal? Sí, aprende por qué