나는 페이지의 html 소스를 표시하기로되어있는 콘솔 C # 응용 프로그램을 만들었습니다.
대신 콘솔 앱에 HtmlAgilityPack.HtmlDocument
가 표시 HtmlAgilityPack.HtmlDocument
.
아무도 그게 왜 내게 설명 할 수 있습니까?
class Program
{
public HtmlDocument read()
{
HtmlWeb htmlWeb = new HtmlWeb();
try
{
HtmlAgilityPack.HtmlDocument document = htmlWeb.Load("http://www.yahoo.com");
return document;
}
catch (Exception e)
{
Console.WriteLine("Error : " + e.ToString());
return null;
}
}
static void Main(string[] args)
{
Program dis = new Program();
string text = Convert.ToString(dis.read());
Console.WriteLine(text);
Console.ReadLine();
}
}
바꾸다
return document;
와:
return document.DocumentNode.InnerHtml;
또는 HTML 태그없이 텍스트 만 추출하려는 경우 :
return document.DocumentNode.InnerText;
전체 코드는 다음과 같습니다.
class Program
{
public string read()
{
HtmlWeb htmlWeb = new HtmlWeb();
try
{
HtmlAgilityPack.HtmlDocument document = htmlWeb.Load("http://www.yahoo.com");
return document.DocumentNode.InnerHtml;
}
catch (Exception e)
{
Console.WriteLine("Error : " + e.ToString());
return null;
}
}
static void Main(string[] args)
{
Program dis = new Program();
string text = dis.read();
Console.WriteLine(text);
Console.ReadLine();
}
}