Hice una aplicación de consola c # que se supone que muestra la fuente html de una página.
En su lugar, la aplicación de la consola muestra HtmlAgilityPack.HtmlDocument
.
¿Alguien puede explicarme por qué es eso?
class Program
{
public HtmlDocument read()
{
HtmlWeb htmlWeb = new HtmlWeb();
try
{
HtmlAgilityPack.HtmlDocument document = htmlWeb.Load("http://www.yahoo.com");
return document;
}
catch (Exception e)
{
Console.WriteLine("Error : " + e.ToString());
return null;
}
}
static void Main(string[] args)
{
Program dis = new Program();
string text = Convert.ToString(dis.read());
Console.WriteLine(text);
Console.ReadLine();
}
}
reemplazar
return document;
con:
return document.DocumentNode.InnerHtml;
o si quieres extraer solo texto (sin etiquetas HTML):
return document.DocumentNode.InnerText;
El código completo sería:
class Program
{
public string read()
{
HtmlWeb htmlWeb = new HtmlWeb();
try
{
HtmlAgilityPack.HtmlDocument document = htmlWeb.Load("http://www.yahoo.com");
return document.DocumentNode.InnerHtml;
}
catch (Exception e)
{
Console.WriteLine("Error : " + e.ToString());
return null;
}
}
static void Main(string[] args)
{
Program dis = new Program();
string text = dis.read();
Console.WriteLine(text);
Console.ReadLine();
}
}