Come utilizzare HTMLAgilityPack per estrarre i dati HTML

c# html-agility-pack web-crawler

Domanda

Sto imparando a scrivere sul web crawler e ho trovato alcuni ottimi esempi per iniziare, ma poiché sono nuovo, ho alcune domande riguardo al metodo di codifica.

Il risultato della ricerca, ad esempio, può essere trovato qui: Risultato della ricerca

Quando guardo il codice sorgente HTML per il risultato, posso vedere quanto segue:

<HR><CENTER><H3>License Information *</H3></CENTER><HR>                                                                       
<P>                                                                                                                           
       <CENTER> 06/03/2014 </CENTER> <BR>                                                                                     
<B>Name : </B> WILLIAMS AJAYA L                     <BR>                                                                      
<B>Address : </B> NEW YORK            NY                                          <BR>                                        
<B>Profession : </B> ATHLETIC TRAINER                          <BR>                                                           
<B>License No: </B> 001475 <BR>                                                                                               
<B>Date of Licensure : </B> 01/12/07      <BR>                                                                                
                                                                                                                                <B>Additional Qualification : </B>     &nbsp; Not applicable in this profession                       <BR>                    
<B> <A href="http://www.op.nysed.gov/help.htm#status"> Status :</A></B> REGISTERED                                        <BR>
<B>Registered through last day of : </B> 08/15      <BR>

Come posso utilizzare HTMLAgilityPack per eliminare tali dati dal sito?

Stavo cercando di implementare un esempio come illustrato di seguito, ma non sono sicuro di dove effettuare la modifica per farlo funzionare per eseguire la scansione della pagina:

<HR><CENTER><H3>License Information *</H3></CENTER><HR>                                                                       
<P>                                                                                                                           
       <CENTER> 06/03/2014 </CENTER> <BR>                                                                                     
<B>Name : </B> WILLIAMS AJAYA L                     <BR>                                                                      
<B>Address : </B> NEW YORK            NY                                          <BR>                                        
<B>Profession : </B> ATHLETIC TRAINER                          <BR>                                                           
<B>License No: </B> 001475 <BR>                                                                                               
<B>Date of Licensure : </B> 01/12/07      <BR>                                                                                
                                                                                                                                <B>Additional Qualification : </B>     &nbsp; Not applicable in this profession                       <BR>                    
<B> <A href="http://www.op.nysed.gov/help.htm#status"> Status :</A></B> REGISTERED                                        <BR>
<B>Registered through last day of : </B> 08/15      <BR>

La classe helper Crawler:

<HR><CENTER><H3>License Information *</H3></CENTER><HR>                                                                       
<P>                                                                                                                           
       <CENTER> 06/03/2014 </CENTER> <BR>                                                                                     
<B>Name : </B> WILLIAMS AJAYA L                     <BR>                                                                      
<B>Address : </B> NEW YORK            NY                                          <BR>                                        
<B>Profession : </B> ATHLETIC TRAINER                          <BR>                                                           
<B>License No: </B> 001475 <BR>                                                                                               
<B>Date of Licensure : </B> 01/12/07      <BR>                                                                                
                                                                                                                                <B>Additional Qualification : </B>     &nbsp; Not applicable in this profession                       <BR>                    
<B> <A href="http://www.op.nysed.gov/help.htm#status"> Status :</A></B> REGISTERED                                        <BR>
<B>Registered through last day of : </B> 08/15      <BR>

tb è una casella di testo multilinea ... Quindi mi piacerebbe che mostrasse quanto segue:

Name WILLIAMS AJAYA L

Address NEW YORK NY

Profession ATHLETIC TRAINER

License No 001475

Date of Licensure 1/12/07

Additional Qualification Not applicable in this profession

Status REGISTERED

Registered through last day of 08/15

Vorrei che il secondo argomento fosse aggiunto a un array perché il prossimo passo sarebbe scrivere su un database SQL ...

Sono in grado di ottenere l'URL dall'IE che ha il risultato della ricerca, ma come posso codificarlo nel mio script?

Risposta accettata

Questo piccolo frammento dovrebbe iniziare:

HtmlDocument doc = new HtmlDocument();
WebClient client = new WebClient();
string html = client.DownloadString("http://www.nysed.gov/coms/op001/opsc2a?profcd=67&plicno=001475&namechk=WIL");
doc.LoadHtml(html);

HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//div");

In pratica, si utilizza la classe WebClient per scaricare il file HTML e quindi si carica HtmlDocument nell'oggetto HtmlDocument . Quindi è necessario utilizzare XPath per interrogare l'albero DOM e cercare i nodi. Nell'esempio precedente "nodi" includerà tutti gli elementi div nel documento.

Ecco una breve guida sulla sintassi XPath: http://msdn.microsoft.com/en-us/library/ms256086(v=vs.110).aspx




Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché
Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché