Ottenere la posizione del sito dei risultati di ricerca di Google

.net c# google-search html-agility-pack parsing

Domanda

Voglio codificare alcuni algoritmi o parser che dovrebbero ottenere la posizione del sito nei risultati di ricerca di Google. Il problema è che ogni volta che cambierà il layout della pagina di Google dovrei correggere / cambiare l'algoritmo. Come pensi che i ragazzi cambieranno davvero molto spesso? Esistono tecniche / consigli / trucchi per determinare la posizione del sito di Google?

Come posso creare un algoritmo di rilevamento della posizione efficace?

Voglio usare C #, .NET 2.0 e HtmlAgilityPack per questo scopo. Qualsiasi consiglio o proposta sarà molto apprezzato. Grazie in anticipo, ragazzi!


AGGIORNAMENTO POST

So che google mostrerà captcha per prevenire le query sulle macchine. Ho ricevuto un servizio speciale per questo, che riconoscerà qualsiasi captcha. Potresti dirmi della tua esperienza con esatti risultati di raschiamento?

Risposta accettata

L'ho chiesto un anno fa e ho ricevuto delle buone risposte. Sicuramente l'Agility Pack è la strada da percorrere.

Alla fine abbiamo fatto il codice di un raschietto grezzo che ha funzionato e ha funzionato senza problemi. Raggiungevamo Google in maniera relativamente leggera (circa 25 query al giorno). Abbiamo preso la precauzione di randomizzare 1) l'ordine e 2) l'ora del giorno e 3) il tempo di pausa tra le domande. Non so se questo sia stato d'aiuto, ma non siamo mai stati colpiti da un captcha.

Non ci preoccupiamo molto ora.

I suoi principali punti deboli erano / sono:

  • ci siamo solo presi la briga di controllare la prima pagina (forse avremmo potuto codificare una versione migliorata che guardava le prime X pagine, ma forse sarebbe un rischio maggiore - in termini di rilevamento da parte di Google).

  • i suoi risultati erano inaffidabili e saltati in giro. Potresti essere in ottava ogni giorno per settimane, ad eccezione di un singolo giorno a caso quando eri terzo. Forse ... l'idea di prendere attentamente una lettura giornaliera o settimanale e registrare la nostra classifica è troppo imperfetta

Per rispondere alla tua domanda su Google che infrange il tuo codice: Google non ha apportato un cambiamento sostanziale in tutti i mesi in cui l'abbiamo eseguito, ma ha cambiato qualcosa che ha rotto l'istantanea che stavamo salvando del risultato (forse un cambio CSS?) Che non ha fatto nulla per migliorare la credibilità dei risultati.


Risposta popolare

Google offre una miriade di API per accedere ai loro servizi. Per la ricerca c'è l' API di ricerca personalizzata .



Related

Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché
Autorizzato sotto: CC-BY-SA with attribution
Non affiliato con Stack Overflow
È legale questo KB? Sì, impara il perché