
La Search, la ricerca di informazioni online, è ciò che ha reso Internet una delle invenzioni più importanti della storia. Ed è ciò che ci ha permesso di reperire qualsiasi contenuto, da quelli testuali a quelli multimediali, a costi e tempi ridottissimi rispetto ad appena qualche decennio fa. La Search, però, non è rimasta immutata dagli albori di Internet. I suoi padri, i motori di ricerca appunto, si sono succeduti negli anni e ne hanno modificato aspetti anche fondamentali. Questo articolo vuole avere la pretesa, anche se non esaustiva, di tracciarne l’evoluzione.
La Search non è uno strumento banale: essa ha avuto un impatto sulle abitudini comportamentali dell’homo sapiens non indifferente. Da quando abbiamo la facoltà di attingere ciò che vogliamo sapere da un database di informazioni di circa 9,5 zettabyte (ossia un trilione di gigabyte contenuti in 4,82 miliardi di pagine web indicizzate) che aumenta ogni anno di quasi il 40%, tendiamo a memorizzarne meno, semplicemente perché ci è più semplice e siamo inoltre rassicurati dal fatto che tali informazioni siano sempre a portata di mano. Gli smartphone accentuano questo comportamento, dal momento che ci consentono di cercare e prenotare un B&B nel giro di pochi tap o di smentire un amico che l’ha sparata grossa durante un aperitivo (o persino di barare nei “quiz da bar”, in cui oggi infatti sono banditi gli smartphone).
Poi l’ubiquità degli smartphone e le infinite schede che apriamo, specialmente sui browser su desktop, ci hanno reso in qualche modo “più multitasker” e più efficienti nel ricercare informazioni.
La Search ha anche cambiato i nostri modi di risolvere i problemi. Spesso, prima ancora di chiamare i nostri amici, effettuiamo una ricerca online e ci affidiamo ad utenti che non conosciamo, ma che prima di noi hanno sperimentato una problematica e vi hanno trovato una soluzione: il caso emblematico è quello dei problemi di hardware o di software per i quali sono nati innumerevoli forum dedicati come il famoso “Hardware Upgrade” o blog come aranzulla.it che ogni giorno riceve circa 500.000 visite (secondo Similarweb). Lo stesso vale per la cucina: ci affidiamo sempre meno all’amico o alla mamma e sempre più a siti come GialloZafferano per cercare la ricetta che più ci aggrada e per seguirne le istruzioni in modo da replicarla (il 60% dei millennials in U.S. usa lo smartphone come guida per cucinare, Google Consumer Survey, 2015).
Ci avvaliamo della Search anche per le scelte di consumo: dal ristorante all’albergo, dal prodotto di elettronica fino all’automobile. Inoltre siamo sempre più “dottori” di noi stessi dato che il 72% di noi aventi internet effettua delle ricerche riguardanti la salute, anche quando abbiamo solo qualche colpo di tosse.
Insomma, la nostra quotidianità è sempre più integrata con i motori di ricerca.
Che cos’è un motore di ricerca
Prima di delinearne la storia occorre dare una definizione. I motori di ricerca altro non sono che dei programmi che cercano dei documenti nel World Wide Web in base ad una o più parole chiave specificate dall’utente e restituiscono una lista di documenti trovati.
Per far ciò il motore di ricerca moderno si avvale a sua volta di programmi, detti crawler, che scandagliano il web visibile (e quindi non il web invisibile ai motori, il “Deep Web”) alla continua ricerca di pagine web aggiornate da catalogare in un indice.
Quando poi un utente effettua una ricerca mediante una query, il motore interrogherà il suo indice e restituirà dei risultati in un ordine che si basa su complessi algoritmi, che dipendono da svariati fattori di posizionamento.
(Non vi ammorberò parlandovi di parser, scheduler, indexer, ecc… spiegandovi nel dettaglio come funzionano le attività di crawling e di indicizzazione, ma vi rimando ad un articolo approfondito su Googlebot, il crawler di Google)
L’alba dei motori di ricerca
Il primo motore fu Archie, il cui nome è “archive” senza la “v”. Nato nel 1990 dalla mente di un certo Alan Emtage, uno studente della McGill University, in Canada, fu in seguito migliorato da altri ricercatori della stessa università. Archie non è nulla di ciò che vi ho spiegato prima. Senza scendere troppo nel tecnico, Archie si “limitava” a catalogare dei file disponibili in determinati server, rendendoli trovabili con un “semplice” match con una query di un utente.
Il secondo motore di ricerca fu Veronica, sviluppato nel 1992 nell’Università del Nevada. Il terzo fu Jughead, nato nel 1993 nell’Università dello Utah, entrambi dal funzionamento simile solo che a differenza di Veronica, quest’ultimo era capace di interrogare più server alla volta.

I tre personaggi principali del fumetto “Archie”: Archie Andrews, Veronica Lodge e Jughead Jones. Da questi prendono il nome i primi tre motori di ricerca.
Nel 1993, all’Università di Ginevra, fu la volta del W3Catalog che non si affidava ancora ai crawler e agli indexer ma provvedeva a catalogare delle già presenti liste di siti web. Il primo web robot nacque poi nel Giugno del 1993 e si chiamava “World Wide Web Wanderer”. Il suo scopo era solo quello di misurare la grandezza del Web, già allora in piena espansione, e non ancora quello di facilitare la ricerca. Nel Dicembre del 1993 arrivò dall’Università di Stirling, Scozia, JumpStation, il primo motore ad utilizzare crawler e indexer. Sfortunatamente JumpStation fallì nel trovare investitori e andò in declino. Ci sembra pazzesco oggi, ma ottenere fondi che servono a coprire i costi dei server (che devono immagazzinare sempre più dati) senza che vi sia un chiaro modello di business per quei tempi era un vero e proprio rischio.
Nel 1994 nacque in California AltaVista, il primo a supportare le query in linguaggio naturale (e quindi accessibile anche a chi non ne masticava di codice di programmazione) e a fornire suggerimenti di ricerca. Sempre in quell’anno vide la luce WebCrawler, che introdusse la possibilità di ricercare qualsiasi parola all’interno di una pagina web: cosa che divenne uno standard nei successivi motori di ricerca.
Nel 1994 David Filo e Jerry Yang lanciarono Yahoo! Directory, ossia una collezione dei loro siti preferiti. Col tempo questa collezione crebbe sempre di più e divenne un motore di ricerca in grado di fornire risultati sì di qualità ma ad un costo immane: la lista di siti indicizzati non veniva creata da bot bensì da esseri umani che manualmente ispezionavano i siti e li valutavano. Impensabile oggigiorno. E Yahoo! inseriva nei suoi indici i siti commerciali previa un pagamento di 300$, mentre quelli informativi gratuitamente.
Nei quattro anni che seguirono Yahoo! fu comunque il motore di ricerca più utilizzato, nonostante la sua peculiarità che gli conferiva costi ingenti e limiti nell’ampiezza del database. Riuscì a primeggiare su motori bot-based come Lycos, LookSmart, Magellan, Excite, Ask.com, Hotbot e Msn Search. Quest’ultimo, sviluppato da Microsoft nel 1998, divenne poi Live Search e infine nel 2009 Bing. Ma ciò che accomunava tutti questi motori di ricerca era il fatto che i loro risultati si basavano esclusivamente su ciò che stava sulle pagine web. La Search era ancora solamente “on-page”.
L’arrivo di Google
Nel 1998, due studenti di Standford, Sergei Brin e Larry Page, lanciarono Google.com, un motore che utilizzava i bot non solo per scandagliare i contenuti delle pagine web ma anche ciò che collegava tra loro queste pagine, i link. Nacque la Search “off-page”. I link non servivano solo a creare mere connessioni, ma anche a conferire valore ad una pagina linkata. Gli algoritmi di Google, che via via divennero sempre più complessi, avevano lo scopo di assegnare dei punteggi ai vari siti (il cosiddetto “Page Rank”), una sorta di autorità alimentata in buona parte dai link secondo l’equazione “più siti fanno riferimento a te, più si fidano di te, più sei affidabile”.
Quantità e qualità, da sempre i due lati della coperta che Google ha voluto equilibrare con i suoi algoritmi e con le sue penalizzazioni. Perché “quantità di parole chiave” per anni si è tradotta in “riempire le pagine web di keyword, trovando modi sempre più creativi per nasconderle all’utente ma non ai bot”, un fenomeno che prese in seguito il nome di “keyword stuffing” quando ormai divenne causa di penalizzazione. “Quantità di link” invece per anni è significato “trovare 1000 e un modo per disseminare nel Web quanti più link al proprio sito, anche da directory giapponesi di indubbia qualità”. Un fenomeno questo, il “link spamming”, che Google ha impiegato anni a contrastare (e non è detto che vi sia completamente riuscito).
Ma gli algoritmi hanno anche negli anni incentivato i gestori di siti web a rendere questi ultimi quanto più rilevanti e navigabili agli occhi dei bot prima, ma sempre più agli occhi degli utenti adesso. Nacque così la SEO – “Search Engine Optimization”.
Anche il tempo fu un fattore di successo: dove altri motori di ricerca impiegavano svariati secondi per caricare la pagina dei risultati, Google, con la sua homepage sempre più “pulita” e “a prova di scemo”, non lasciava il tempo di un battito di ciglio per restituire la SERP.
Ma Google non sarebbe Google senza una sostenibilità economica.
Questione di modello di business
Mentre Yahoo! Search faceva pagare le aziende per far parte delle sue directory, altri motori di ricerca trovavano remunerativo inserire dei banner pubblicitari nella home page, con conseguente fastidio per gli utenti e tempi di caricamento prolungati.
Google nacque invece con uno spirito più nobile. Mentre un altro motore di ricerca, goto.com, sperimentò un modello di business basato sulla vendita delle parole chiave agli inserzionisti, Sergei Brin e Larry Page scrivevano un paper dal titolo “The Anatomy of a Large-Scale Hypertextual Web Search Engine” in cui, oltre a spiegare il funzionamento di Google, affermavano con convinzione la necessità per un motore di ricerca di tenersi a debita distanza dall’advertising per non rischiare di consegnare all’utente dei risultati di qualità scadente.
The goals of the advertising business model do not always correspond to providing quality search to users. […] We expect that advertising funded search engines will be inherently biased towards the advertisers and away from the needs of the consumers.
Inutile dire che qualcosa gli fece cambiare idea.
Nel 2000 Google iniziò a vendere inserzioni (a quel tempo solamente testuali) sulla base delle parole chiave di ricerca, che venivano comprate all’asta ad un prezzo che combinava l’offerta dell’inserzionista al CTR (“click-through rate”, il tasso che misura quante volte l’inserzione viene cliccata in relazione al numero di visualizzazioni della stessa). In questo modo non si dava peso solo alla variabile monetaria, ma anche a quanto l’annuncio fosse attraente per l’utente. In futuro verrà poi aggiunto tra i fattori anche il “quality score”, un punteggio sulla rilevanza tra l’annuncio e la pagina in cui viene destinato l’utente dopo aver cliccato. Iniziò così l’era della SEM – “Search Engine Marketing”.
L’evoluzione della Search: tra tempo, qualità e comodità
Dagli anni 2000 in poi Google acquisì la leadership del mercato che tutt’ora detiene. Questo la costrinse (e non semplicemente “la spinse”) ad un continuo miglioramento dell’esperienza di ricerca dell’utente, e quindi principalmente in termini di algoritmi e cioè di qualità dei risultati ma anche di funzionalità, che i competitor dovettero implementare anche solo per non rimanere indietro.
Per portare l’utente a fare di Google il suo unico motore di ricerca, bisognava garantirgli sempre la massima rilevanza e attinenza dei risultati alle sue intenzioni di ricerca. Bisognava dargli la risposta migliore alla sua domanda.
Come si è detto molti aggiornamenti degli algoritmi furono “difensivi”: servivano quindi a contrastare pratiche “nocive” per la qualità dei risultati. Fu il caso di update come “Cassandra” o “Dominic” nel 2003. Altri aggiornamenti miglioravano il crawling e l’indexing. “Florida” e “Brandy” nel 2004 incrementarono l’attinenza delle parole chiave con il contesto prendendo in considerazione anche i sinonimi di queste.
Nel 2005, poi, la Search divenne “personalizzata”: gli algoritmi iniziarono a prendere in considerazione anche la cronologia di ricerca, restituendo quindi dei risultati più “sartoriali”. Qualche anno più tardi verranno poi aggiunti anche l’indirizzo IP del dispositivo dell’utente e poi ancora l’esatta posizione di questi. Ma già nello stesso 2005 fu lanciata Google Maps per la fornitura di risultati geolocalizzati, la cosiddetta “Local Search”, che venne in seguito ampliata grazie ad altri servizi complementari come Google Earth, Street View, Traffic e Transit, quest’ultimo altro non è che un pianificatore di percorsi con mezzi pubblici o privati. In futuro, con l’update “Pidgeon”, le ricerche “local” verranno poi meglio correlate ad eventi o aziende locali.
Successivamente, nel momento in cui ci si rese conto che la quantità di informazioni, e quindi di risultati, stava ogni anno aumentando a dismisura, si comprese che non si trattava più di fornire all’utente “il miglior risultato in assoluto” ma “un ventaglio di risultati ottimi per una specifica categoria”. Nacque così la “Vertical Search”: vennero introdotte le categorie “News”, “Images”, “Videos” e altre ancora, tutte allo scopo di “rendere verticali” i risultati di ricerca, in virtù anche della possibilità di poter ricercare anche contenuti non necessariamente testuali.
Come fare poi a rendere la ricerca ancor più veloce di quanto non fosse già? La risposta è stata semplice: non lasciare che l’utente completi la sua query di ricerca. Nel 2007 fu la volta di Google Suggest, lo strumento in grado di suggerire possibili completamenti della query permettendo di risparmiare tempo. Ovviamente questo vale solo per query che vanno fin da subito nello specifico, in caso contrario otterreste solo dei suggerimenti generici ma spesso divertenti. Nel 2010 venne poi lanciato Google Instant che permette di mostrare una SERP mentre l’utente sta ancora digitando la query.
La variabile “tempo” non andava considerata solo in termini di velocità nel restituire i risultati ma anche di velocità nell’aggiornare il proprio indice. Così negli anni i motori di ricerca potenziarono sempre di più le loro attività di crawling e di indexing, specie con la diffusione dei magazine e dei giornali online che hanno sempre contenuti freschi da dare in pasto ai bot. In particolare nel 2009 venne lanciato un sostanziale miglioramento della cosiddetta “Real-time search”, per consentire l’indicizzazione di contenuti quasi istantaneamente. Utilissima sia per “News” ma anche per altri contenuti che necessitano di essere “freschi” come i tweet.
La battaglia alle pratiche scorrette di SEO, ai contenuti spam, allo scraping (l’attività, per alcuni “l’arte”, di creare script automatici per la raccolta di contenuti da altri siti al fine di popolare un sito internet di questi senza un minimo di copywriting) e ai siti ad alto tasso di pubblicità sul totale del contenuti non si è mai arrestata negli anni ma ha visto due “cannonate” nel 2011 e nel 2012 con gli aggiornamenti “Panda” e “Penguin” che determinarono un crollo di tutti quei siti che fecero uso di tali pratiche.
Sul fronte della qualità dei contenuti va poi certamente menzionato Knowledge Graph, una tecnologia per la rappresentazione di dati strutturati, ossia non semplici informazioni ma testi arricchiti di relazioni semantiche con altri oggetti mediante dei cosiddetti “markup”, tali per cui se inserisco come query “zach braff” il motore saprà che sto parlando di una persona fisica di grande notorietà e in quanto tale vi associerà diversi attributi di una persona quali foto, data di nascita e altezza, ma anche opere (trattandosi di un artista), film e programmi televisivi in cui è presente e ricerche correlate. Lo stesso avviene con le aziende. Knowledge Graph rappresenterà poi tutte queste informazioni a destra nella SERP (dove un tempo stavano gli annunci testuali laterali, ormai soppressi da Google).
I dati strutturati provengono da diverse fonti, che il motore incrocia per verificarne l’attendibilità. Tra queste hanno notevole importanza i “markup” di Schema.org, un’iniziativa congiunta di Google, Yahoo! e Bing per rendere più ricche le informazioni sul web. Le parole chiave non sono più solo testo ma sono il bagaglio di relazioni semantiche che esse portano con sé: è ciò che viene oggi chiamato “Web Semantico”. Per questo motivo otterrò informazioni su Michelle Obama e sulle sue relazioni semantiche semplicemente chiedendo “quando è nata la moglie di obama”.
Oggi per migliorare la qualità dei risultati di ricerca i motori, Google con il suo algoritmo RankBrain e Bing con RankNet, si affidano a tecnologie di machine-learning: sistemi di intelligenza artificiale che processano centinaia di milioni di ricerche al giorno al fine di affinare la qualità dei risultati soprattutto di quelle ricerche particolarmente lunghe o che fanno uso di espressioni colloquiali. Considerate che degli oltre 4 miliardi di query giornaliere processate da Google, circa il 15% di queste non sono mai state formulate prima.
Di recente Google ha introdotto AMP, Accelerated Mobile Pages, un progetto in collaborazione con i principali editori che mira, attraverso un framework detto “AMP HTML”, a realizzare specifiche pagine web per mobile decisamente leggere e in grado così di abbattere i tempi di caricamento su smartphone.
Va poi menzionata GBoard, una recente app di casa Google, sviluppata specificatamente per iOS, che permette di effettuare ricerche direttamente nella tastiera del proprio smartphone.
L’ultima macro-innovazione nella Search consiste nella “ricerca vocale”. Già da qualche anno Apple con Siri, Microsoft con Cortana, Amazon con Alexa, Google con il suo Google Now e Baidu con Duer, hanno fornito ai loro utenti degli assistenti personali che funzionano a comando vocale. Si tratta di software dall’intelligenza artificiale ben sviluppata pronti a ad aiutarci nell’effettuare chiamate, nello scrivere messaggi su dettatura e a rispondere ad ogni nostro quesito, non mancando di senso dell’umorismo (provate a rivolgervi a Siri chiamandola Cortana o viceversa!).
Va da sé che tali software dovevano naturalmente essere d’aiuto anche nel fornire risultati di ricerca online. Così la Search ha visto il suo più grande cambiamento proprio negli ultimi anni, modificando ancora una volta le abitudini comportamentali degli utenti: attraverso le query vocali, che si stima rappresenteranno il 50% del totale nel 2020. Si tratta di query di ricerca ben diverse da quelle scritte, proprio perché sottendono alla logica del parlato e non alla precisione e all’economicità dello scritto.
In particolare le query vocali:
- sono tendenzialmente più lunghe delle query testuali (“Quanto costa un hard disk se lo compro online?” al posto di “Hard disk prezzi”);
- utilizzano un linguaggio più naturale (comprensivo di articoli e preposizioni) e fanno spesso uso delle famose “question words” (Cosa, Dove, Come, Quanto, Quale, Quando,…);
- rivelano in modo più chiaro un’intenzione, ossia con maggiore probabilità chi le formula è anche pronto a compiere una determinata azione, spesso perché ha una necessità impellente;
- per il motivo precedente hanno un maggiore impatto a livello locale proprio perché vengono formulate in mobilità.
Se volete saperne di più sulla Vocal Search vi rimando a questo articolo dedicato.
In sostanza la qualità dell’informazione, il tempo per reperirla e la comodità nel ricercarla sono stati i tre assi su cui si è evoluta negli anni la Search. Google certamente ha avuto l’impatto maggiore ma non è rimasto solo negli anni pur conservando la leadership del mercato. Vari competitor sono riusciti a tenere testa a Google e a resistergli fino ad oggi: sono stati capaci di star dietro a Big G in termini di evoluzione tecnologica e sono persino riusciti ad innovare su alcuni aspetti come nel caso di Yahoo! Search e di Bing (oggi facenti parte di un unico network) oppure hanno presidiato dei mercati prima di Google stesso e li hanno mantenuti ed è il caso di Yandex in Russia e di Baidu in Cina.
La storia della Search è questa che ho provato a “condensarvi”. Se volete saperne di più su come evolverà ancora, restate in attesa del prossimo articolo.