extracción de enlaces usando HtmlAgilityPack y c #

c# html html-agility-pack search-engine

Pregunta

quiero extraer los enlaces de resultados de google
Mi código funciona, extrae enlaces, pero estos enlaces no son lo que esperaba que se extrajeran. Mi programa extraería enlaces dentro de la etiqueta "a href" pero todos los enlaces en los resultados de búsqueda no son enlaces apropiados, enlace de anuncios, enlace de Google también están incluidos, ¿qué debo hacer?

using HtmlAgilityPack;
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Net;
using System.ServiceModel.Syndication;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using System.Xml;

namespace Search
{
public partial class Form1 : Form
{
    // load snippet
    HtmlAgilityPack.HtmlDocument htmlSnippet = new HtmlAgilityPack.HtmlDocument();

    public Form1()
    {
        InitializeComponent();
    }

    private void btn1_Click(object sender, EventArgs e)
    {
        listBox1.Items.Clear();
        StringBuilder sb = new StringBuilder();
        byte[] ResultsBuffer = new byte[8192];
        string SearchResults = "http://google.com/search?q=" + txtKeyWords.Text.Trim();
        HttpWebRequest request = (HttpWebRequest)WebRequest.Create(SearchResults);
        HttpWebResponse response = (HttpWebResponse)request.GetResponse();

        Stream resStream = response.GetResponseStream();
        string tempString = null;
        int count = 0;
        do
        {
            count = resStream.Read(ResultsBuffer, 0, ResultsBuffer.Length);
            if (count != 0)
            {
                tempString = Encoding.ASCII.GetString(ResultsBuffer, 0, count);
                sb.Append(tempString);
            }
        }

        while (count > 0);
        string sbb = sb.ToString();

        HtmlAgilityPack.HtmlDocument html = new HtmlAgilityPack.HtmlDocument();
        html.OptionOutputAsXml = true;
        html.LoadHtml(sbb);
        HtmlNode doc = html.DocumentNode;

        foreach (HtmlNode link in doc.SelectNodes("//a[@href]"))
        {
            //HtmlAttribute att = link.Attributes["href"];
            string hrefValue = link.GetAttributeValue("href", string.Empty);
     //       if ()
            {
                int index = hrefValue.IndexOf("&");
                if (index > 0)
                {
                    hrefValue = hrefValue.Substring(0, index);
                    listBox1.Items.Add(hrefValue.Replace("/url?q=", ""));
                }
            }
        }
    }
}

}

Si quiero trabajar con la etiqueta "a href" tengo que agregar alguna condición en If
pero no sé qué condición debo usar aquí:

if ()

en algún lugar leí acerca de cómo extraer la etiqueta de citar, no la etiqueta de ahref
alguien puede ayudar?

Respuesta aceptada

Para obtener los enlaces que están contenidos en los elementos de la cite , simplemente acceda a su texto interno, como:

    HtmlWeb w = new HtmlWeb();
    var hd = w.Load("http://www.google.com/search?q=veverke");

    var cites = hd.DocumentNode.SelectNodes("//cite");

    foreach (var cite in cites)
        Console.WriteLine(cite.InnerText);


Related

Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow
Licencia bajo: CC-BY-SA with attribution
No afiliado con Stack Overflow