È questo il modo migliore per ottenere una pagina web durante lo scraping?
HttpWebRequest oReq = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse resp = (HttpWebResponse)oReq.GetResponse();
var doc = new HtmlAgilityPack.HtmlDocument();
doc.Load(resp.GetResponseStream());
var element = doc.GetElementbyId("//start-left");
var element2 = doc.DocumentNode.SelectSingleNode("//body");
string html = doc.DocumentNode.OuterHtml;
Ho visto HtmlWeb().Load
per ottenere una pagina web. È un'alternativa migliore per caricare e raschiare la pagina web?
Ok, ci proverò.
HtmlDocument doc = web.Load(url);
Ora, quando ho ricevuto il mio doc
e non ho avuto proprietà di mutp. Nessuno come SelectSingleNode
. L'unico che posso usare è GetElementById
, e funziona, ma desidero ottenere una lezione.
Devo farlo in questo modo?
var htmlBody = doc.DocumentNode.SelectSingleNode("//body");
htmlBody.SelectSingleNode("//paging");
Molto più facile da usare HtmlWeb.
string Url = "http://something";
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load(Url);