Хорошо, как показано ниже, он извлекает только ссылку на url, как это
код извлечения:
foreach (HtmlNode link in hdDoc.DocumentNode.SelectNodes("//a[@href]"))
{
lsLinks.Add(link.Attributes["href"].Value.ToString());
}
Код URL
<a href="Login.aspx">Login</a>
Выделенный URL
Login.aspx
Но я хочу получить реальную ссылку, что браузер проанализировал, как
http://www.monstermmorpg.com/Login.aspx
Я могу сделать это с проверкой URL-адреса, содержащего http, и если не добавить значение домена, но это может вызвать некоторые проблемы в некоторых случаях, и я думаю, что это не очень мудрое решение.
c # 4.0, HtmlAgilityPack.1.4.0
Предполагая, что у вас есть оригинальный URL-адрес, вы можете комбинировать проанализированный URL-адрес примерно так:
// The address of the page you crawled
var baseUrl = new Uri("http://example.com/path/to-page/here.aspx");
// root relative
var url = new Uri(baseUrl, "/Login.aspx");
Console.WriteLine (url.AbsoluteUri); // prints 'http://example.com/Logon.aspx'
// relative
url = new Uri(baseUrl, "../foo.aspx?q=1");
Console.WriteLine (url.AbsoluteUri); // prints 'http://example.com/path/foo.aspx?q=1'
// absolute
url = new Uri(baseUrl, "http://stackoverflow.com/questions/7760286/");
Console.WriteLine (url.AbsoluteUri); // prints 'http://stackoverflow.com/questions/7760286/'
// other...
url = new Uri(baseUrl, "javascript:void(0)");
Console.WriteLine (url.AbsoluteUri); // prints 'javascript:void(0)'
Обратите внимание на использование AbsoluteUri
и не полагаться на ToString()
потому что ToString
декодирует URL (чтобы сделать его более «понятным для человека»), что обычно не является тем, что вы хотите.
Я могу сделать это с проверкой URL-адреса, содержит ли он http, и если не добавить значение домена
Это то, что вы должны делать. Html Agility Pack не имеет ничего общего с этим:
var url = new Uri(
new Uri(baseUrl).GetLeftPart(UriPartial.Path),
link.Attributes["href"].Value)
);