
La Search Engine Optimization (anche detta SEO, ormai lo sapete bene) è uno strumento indispensabile di marketing che si fonda sullo studio delle necessità delle persone a partire da un’analisi su cosa (e come) gli utenti navigano sul web per soddisfare i propri bisogni. L’obiettivo? Ottimizzare un sito per aumentarne il traffico proveniente dai motori di ricerca. Proviamo a immergerci nello studio di Googlebot, lo spider del motore di ricerca più famoso del mondo.
Se la SEO si incentra sull’ottimizzazione e sulla ricerca delle parole chiave, Googlebot è il bot di scansione del Web del titano Google ed ha la funzione di rilevare le nuove pagine e quelle aggiornate da aggiungere all’indice del motore di ricerca. Ho sentito crawler? Questi, anche conosciuti come spider, bot o robot, sono dei veri e propri software ideati per “scannerizzare” i contenuti della rete, sfogliare le URL e identificare gli hyperlink. ossia i collegamenti ipertestuali che rimandano l’utente a un’altra pagina, aggregandoli in un elenco di indirizzi internet (persino Facebook li ha).
Il ragno digitale di Google
In particolare Googlebot è il bot proprio di Google, il gigantesco motore di ricerca, che studia il web e ne indicizza i risultati. Si comporta come tanti pc uniti assieme che fungono quasi da web browser, navigando tra centinaia, migliaia di pagine, scaricandole e indicizzandole. Il suo compito è di scaricare le risorse assegnategli dallo scheduler, un modulo la cui funzione è decidere quali URL passare al crawler (azione che erroneamente si crede che venga svolta autonomamente dagli spider), e quindi di effettuare delle ricerche sull’URL segnalatogli. La fase di ricerca inizia con le richieste HTTP del crawler indirizzate all’URL in questione alle quali puoi seguiranno dei risultati specifici in base ai casi da analizzare.
Una volta raccolti i dati dal web, passa alle singole pagine sfogliando tutte le informazioni al loro interno. Trovati questi indici passa successivamente ai nostri stessi blog post e analizza tutti i link che abbiamo citato.
Google Dance e Fresh-Crawl
Googlebot scannerizza in due modalità distinte:
- Deep-Crawl: effettuata circa una volta al mese, la Deep-Crawl analizza le pagine aggiornando gli indici. Questo porta alla “Google Dance”, ovvero alla ricerca di informazioni che cambiano di volta in volta, un tempo di aggiornamento che richiede circa 8 giorni dopo ogni Deep-Crawl.
- Fresh-Crawl: rispetto alla Deep-Crawl, questa rimane in funzione tutti i giorni e aggiorna la lista di indici già scritti.
I dati raccolti vengono riordinati alfabeticamente secondo il termine di ricerca e ogni singolo termine ha memorizzato dentro una serie di documenti in cui compare la stessa parola e la sua posizione all’interno del testo.
Googlebot non studia ogni singola parola: alcune infatti – chiamate stop words – vengono ignorate perché troppo comuni (quali preposizioni, articoli determinativi ecc). Le query di ricerca vengono selezionate e aggregate, nonché valutate di concerto con l’importanza delle pagine web e le elenca secondo il loro grado. Con questa analisi per mezzo dei crawl, si studia continuamente il posizionamento dei contenuti e come esso varia con l’arrivo costante di nuovi materiali.
Una novità rispetto agli anni scorsi riguarda i blog: con il loro avvento i motori di ricerca hanno modificato la modalità di posizionamento. Se un blog pubblica qualcosa, il suo contenuto sarà tra le prime posizioni. Questo durerà solamente fino alla condivisione di un contenuto simile da parte di un altro blog, che farà risultare il proprio contenuto più nuovo (anche quando la pubblicazione sarebbe a pochi giorni dall’altra) e quindi più rilevante e aggiornato. Con questo cambiamento è necessario che i siti web pubblichino costantemente approfondimenti che raggiungano gli utenti interessati.
La speranza è che quest’ultimi commentino i loro articoli in modo da riaggiornare il posizionamento e mantenere “in vita” il contenuto.
Sedurre Googlebot: 4 mosse che potrebbero essere utili
Come possiamo farci notare da questo magnifico spider? Google è estremamente complesso e non sempre indicizza le pagine che visitiamo, ma fortunatamente ci sono delle tecniche per far sì che il motore di ricerca si attivi a nostro comando (per i siti ancora sconosciuti):
#1 Inserire direttamente il dominio del sito sulla barra di ricerca: Google si renderà presto conto di non avere informazioni a riguardo e provvederà alla raccolta dati da aggiungere ai suoi file;
#2 Utilizzare il link: l’opzione forse più semplice tra le tre. Possiamo infatti inserire un link a Google su una pagina del sito che intendiamo segnalare. Una volta cliccato, verrà riconosciuto come un segnale da Google, che prenderà quindi nota dell’indirizzo della pagina da cui proviene l’utente;
#3 Fetch con Google: di Google Webmaster Tool che vi permette di capire se Googlebot può accedere alla pagina, come la legge e se ci siano delle restrizioni dove non può agire. Si inserisce il link del sito (meglio se l’indice) su Fetch e questo in pochi minuti lo presenterà tra i risultati di ricerca. Sono richiesti solo pochi step per avviare quest’ultima opzione.
Svegliare Googlebot quindi non è un’impresa così complessa e articolata, i tool di Google sono vari per qualsiasi ricerca che devi fare (immagini, file, video ecc), tuttavia non sorprendetevi se alcune volte l’indicizzazione di un determinato sito non si avvia subito: ricordatevi (come scritto sopra) che le priorità di download seguono la distribuzione del PageRank sul web.