Contents

Una fonte importante per recuperare dati che permettano di assegnare un valore ai documenti nel web è l’evoluzione nel tempo di alcuni fattori legati ai documenti stessi, ovverosia i dati storici.

Finora abbiamo accennato a fattori interni ed esterni al sito che influiscono sul posizionamento nei motori di ricerca, ma abbiamo parlato di questi fattori come immobili nel tempo, come delle fotografie, per così dire.

Eppure esiste un’altra importantissima fonte che permette di ricavare dati assai utili a capire quanto un sito sia importante e soprattutto aggiornato, basta fare un piccolo salto mentale e pensare che il web, come tutte le entità di questo mondo esiste sì nello spazio ( anche se in questo caso si tratta di spazio-cibernetico, o cyberspazio per gli amanti di William Gibson ) ma anche nel tempo.

Se voi possedeste un motore di ricerca e i vostri spider registrassero continuamente ( come fanno davvero gli spider di tutti i motori di ricerca ) i contenuti delle pagine di tutti i siti e tutti i link che puntano ad esse, sostituireste semplicemente i dati “vecchi” con i “nuovi” oppure li terreste tutti da parte per poter capire come certe caratteristiche dei siti si evolvano col passare dei mesi e degli anni?

Quelli fatti precedentemente sono solo due esempi, ma sono estremamente significativi.

Se un motore di ricerca confrontando i dati storici relativi ad un sito capisce che i suoi contenuti aumentano regolarmente è legittimato a supporre che le notizie inserite non siano obsolete e che quindi a parità di altri fattori siano da preferire a quelle riportate da un sito simile ma che non viene modificato da anni.

Allo stesso modo se un motore di ricerca capisce che il numero di link che puntano ad un documento sta crescendo regolarmente e continuativamente può supporre che il documento in questione sia apprezzato da molte persone e che magari sia molto attuale e da preferire ad un documento per altri versi equivalente ma a cui magari alcuni o molti webmaster abbiano tolto link negli ultimi mesi.

Quelle di cui stiamo parlano non sono solo mere ipotesi, perché il 31 marzo 2005 Google ha registrato un brevetto intitolato Information retrieval based on historical data ( Reperimento di informazioni basato su dati storici ) dove in 131 paragrafi vengono esaminati molti tipi di approcci relativi a numerosi algoritmi che permettono di assegnare punteggi ai documenti del web facendo ipotesi basate sulla variazione nel tempo di numerosi fattori.

Dal momento che il documento in questione, come si legge nella sua prima pagina, risulta essere stato archiviato nel 2003 è molto probabile che questi fattori facciano parte integrante già da tempo degli algoritmi di Google, e a dirla tutta questo documento da solo basta a spiegare quello che nell’ambiente SEO viene chiamato “effetto sandbox” che in breve consiste nell’invisibilità quasi totale dei nuovi siti per ricerche importanti per un periodo che va dai 6 ai 10 mesi o più.

La data iniziale dei documenti

La data del primo incontro fra il motore di ricerca ed un documento risulta essere un parametro utile a correggere i calcoli relativi alla link popularity ed al PageRank dei documenti stessi.

Il primo parametro che il motore deve prendere in considerazione allo scopo di poter fare un’analisi dai dati storici riguardanti i documenti del web è il “momento zero”, cioè il momento dal quale i dati storici riguardanti tale documento saranno immagazzinati. Per ciò che riguarda Google la data iniziale del documento può essere determinata in vari modi, per esempio l’opzione più probabile al momento in cui scrivo è quella in cui la data iniziale corrisponde al primo incontro dello spider di Google con il documento stesso e probabilmente alla data della sua prima memorizzazione in cache.

Nella sezione relativa alla data iniziale del documento Google dice chiaramente che in certi casi essa potrebbe anche, per esempio, coincidere con la segnalazione del documento all’apposita pagina di Google oppure alla data nella quale lo spider di Google trova per la prima volta un link al documento durante le sue esplorazioni. In realtà secondo me questa è un po’ una questione di lana caprina, in quanto Google stesso suggerisce che a seconda delle diverse situazioni la data iniziale del documento può essere determinata in vari modi. Quello che veramente ha un senso è cercare di capire quali sono gli utilizzi che il motore di ricerca può fare di tale data, qualunque sia la modalità con cui sia stata calcolata.

La data iniziale del documento serve principalmente a stabilire l’anzianità dello stesso e questo viene fatto per diverse buone ragioni. La prima è che il calcolo dei link che puntano ad un documento (backlinks) serve a Google per effettuare importanti valutazioni sull’importanza dl documento stesso (pagerank) ma questo tipo di calcolo può essere falsato dal fatto che i documenti abbiano anzianità diverse.

Per un calcolo del genere un documento vecchio di dieci anni che possiede cento backlink risulterebbe avere un’importanza maggiore di un documento vecchio di un anno che ne abbia cinquanta. Questo in lnea di principio è sbagliato perché è ovvio anche ad una analisi superficiale che il documento più nuovo ha ricevuto molti più link dell’altro nei suoi pochi mesi di vita ed è ipotizzabile che nei dieci anni a venire ne collezioni molti più di cento.

A questo proposito viene per la prima volta introdotto il concetto di “ritmo di crescita” di un parametro (rate of growth in the number of back links) che sarà una delle chiavi di volta di tutto il documento.

Stabilire una data iniziale per i documenti consente per esempio di calcolare un ritmo di crescita dei backlinks, di correggere la distorsione relativa nei calcoli del pagerank e quindi di “far gareggiare” ad armi pari i documenti nuovi con quelli più vecchi.

Questo è importante anche perché i documenti vecchi hanno maggiore probabilità di contenere informazioni obsolete rispetto a quelli nuovi. Sappiamo tutti bene quanti siti web contengano pagine semi-abbandonate, regolarmente indicizzate dai motori di ricerca, contenenti link regolarmente conteggiati nei calcoli relativi alla link-popularity ed al pagerank, eppure una certa percentuale di questi link, in dei siti regolarmente aggiornati sarebbe stata eliminata, alterando, o meglio, migliorando il calcolo dei due importanti fattori di cui sopra.

Gli ingegneri dei motori di ricerca conoscono bene questo problema, infatti nell’analisi del documento relativo al brevetto di Google sui dati storici troveremo più volte dei riferimenti a sistemi per “depotenziare” la spinta di link provenienti da documenti che attraverso l’analisi di vari parametri vengano ritenuti obsoleti o “stantii”.

D’altra parte molti webmaster, proprio cercando di influenzare a loro vantaggio i calcoli che stanno alla base della link-popularity e del PageRank, provvedono a creare fin da subito numerosi link “artificiali” ai propri nuovi documenti, allo scopo di posizionarli meglio.

Questo tipo di comportamento viene considerato “spam” da parte dei motori di ricerca ed è fortemente deprecato. In effetti è così malvisto che, come avremo modo di accorgerci, la maggior parte delle tecniche esposte nel documento di Google relativo al trattamento dei dati storici, hanno lo scopo preciso di rilevare tali comportamenti ed eliminarne gli effetti.

Aggiornamento dei contenuti

La frequenza e l’entità degli aggiornamenti nei contenuti di pagine e siti web possono essere valutate dai motori ed influire sul loro posizionamento.

Gli spider dei motori di ricerca scandagliano il web memorizzando il contenuto delle pagine, e più in generale dei documenti, che vi trovano. Questo è verificabile anche semplicemente osservando le versioni cache messe a disposizione nelle serp (pagine dei risultati) di Google ed MSN per ogni documento presente nel loro database. Sotto Ad ogni risultato è presente un link testuale “Versione cache” che, seguito, visualizza una copia esatta del documento specificando la data e l’ora a cui la copia si riferisce, che corrisponde in generale al momento dell’ultimo passaggio dello spider.
Queste copie del documento originale vengono memorizzate da qualche parte su dei server di proprietà del motore di ricerca ed è su queste copie che il motore applica i suoi algoritmi quando deve ordinare i documenti da restituire all’utente.

Fino a qui niente di nuovo, ma facciamo un ulteriore passo in avanti: perché i motori di ricerca dovrebbero cancellare le vecchie versioni dei documenti che hanno memorizzato? Per mere questioni di risorse hardware?
Può darsi, ma ricordiamoci che per come si è evoluta l’informatica negli ultimi dieci anni le risorse hardware sono in genere considerate l’ultimo dei problemi ed è ragionevole pensare che nella misura in cui i motori di ricerca individuino la necessità di risorse del genere riescano a farvi fronte, anche se il numero di documenti in gioco in questo caso è davvero rilevante.

Nel documento relativo al brevetto di Google sui dati storici, e più precisamente nei paragrafi che vanno dallo 0045 allo 0056 viene chiaramente spiegato che gli aggiornamenti dei documenti possono venire monitorati allo scopo di assegnare agli stessi un punteggio che poi avrà il suo peso nel posizionamento degli stessi.

Viene specificato inoltre che, ove manchino adeguate risorse hardware per la memorizzazione dei documenti possono venire comunque memorizzati dei vettori di termini rappresentativi dei documenti, oppure altre loro rappresentazioni matematiche, o ancora dei sommari, o degli estratti delle parti considerate più rilevanti che permettano di monitorare e valutare gli aggiornamenti dei documenti anche senza memorizzarli in modo integrale.

Passando invece ad analizzare le valutazioni che Google può effettuare riguardo agli aggiornamenti dei documenti, viene subito specificato che sia la frequenza che la quantità di tali aggiornamenti sono fattori presi in considerazione.

Viene suggerito che la frequenza degli aggiornamenti possa essere considerata in vari modi, per esempio considerando il numero di aggiornamenti effettuati in un periodo di riferimento ( che ovviamente non viene specificato ) oppure calcolando la media del tempo trascorso fra gli aggiornamenti in un periodo di tempo.

Il concetto di “ritmo” con il quale un dato evento si verifica viene considerato importante anche a questo riguardo. Infatti il ritmo con il quale vengono aggiornati i documenti in un determinato periodo di tempo può essere confrontato con il ritmo registrato in un periodo precedente allo scopo di valutare se ci sia una tendenza alla crescita o al rallentamento degli aggiornamenti ed assegnare al documento un punteggio rispettivamente maggiore o minore.Il concetto di “documento” per come viene inteso in questa contesto non è necessariamente sinonimo di “pagina web” in quanto viene specificato chiaramente che, a seconda dei casi, può essere inteso sia un singolo file che un insieme di molti file o anche un intero sito web, una email, un post di un newsgroup, di un blog o altro ancora. Infatti dove si fa riferimento al monitoraggio della entità degli aggiornamenti viene detto che un sistema per determinarla può essere quello di conteggiare il numero di pagine nuove aggiunte in un periodo di tempo, oppure di calcolare il rapporto fra le pagine totali che formano il documento e le pagine nuove aggiunte in un periodo di tempo.

Quando invece per documento viene intesa la singola pagina web viene detto senza mezzi termini che il motore di ricerca è in grado di distinguere varie parti all’interno di essa ed assegnare a ciascuna un peso differente.

Nella fattispecie viene suggerito a titolo di esempio che aggiornamenti nei javascript, nei commenti, nella pubblicità, negli elementi di navigazione o nei tag data/giorno sono per lo più ignorati, mentre al contrario aggiornamenti nel titolo o nel testo dei link uscenti sono considerati molto importanti.

Inoltre, ai documenti per i quali viene registrato un incremento nel ritmo degli aggiornamenti e contemporaneamente l’entità dei cambiamenti supera una certa soglia, può venire assegnato un punteggio maggiore di quello dato a documenti con lo stesso ritmo di aggiornamenti ma nei quali l’entità dei cambiamenti rimane al di sotto della soglia.

Infine, per capire se e quanto per determinate ricerche sia importante premiare o meno i documenti aggiornati più recentemente, Google può verificare quali siano le date di aggiornamento di tutti i documenti restituiti da una ricerca e calcolare una data media specifica della ricerca. Questo serve ad assegnare successivamente a ciascun documento un punteggio in base allo scostamento dalla data media per quella ricerca.

Analisi delle ricerche

Analizzare le ricerche effettuate dagli utenti e le loro scelte nelle pagine dei risultati può fornire utili indicazioni per stabilire quali documenti siano più rilevanti.

Come ogni altro servizio “al pubblico” i motori di ricerca devono tentare di fornire ai propri clienti, vale a dire agli utenti, quello che essi desiderano. A differenza di altre tipologie di attività però, i motori di ricerca non devono eseguire dispendiosi sondaggi per verificare i desideri dei propri clienti, in quanto sono proprio questi ultimi, tramite milioni di ricerche effettuate ogni giorno, a fornire un’enorme mole di materiale statistico pronta per essere analizzata. La memorizzazione e l’analisi di delle variazioni nel tempo di queste ricerche e dei comportamenti dell’utente rispetto alle pagine dei risultati forniti, sono dati molto importanti per i motori di ricerca, e permettono di rendere il comportamento del motore più flessibile e più pronto ad adattarsi, a particolari condizioni esterne.

Relativamente alla sezione specifica del brevetto di Google sui dati storici, viene affermato che il motore può rilevare quando determinate ricerche o tipologie di ricerche subiscono un incremento nel tempo al fine di dare una “spinta”, o meglio assegnare un punteggio maggiore, ai documenti che vengono ritenuti tematicamente correlati all’argomento relativo. Questo contribuisce a migliorare i risultati forniti dal motore di ricerca, ottenendo il risultato di relegare in posizioni più arretrate i documenti considerati meno a tema con le richieste degli utenti.

Per esempio, durante il periodo natalizio, a fronte della ricerca “regali” il motore, avendo rilevato che molti più utenti del solito cercano la parola “natale”, potrebbe decidere di usare questa informazione per spingere maggiormente i documenti che trattano di “regali” ma sono correlati anche alla ricerca “natale”, ottenendo l’effetto di spostare verso le prime posizioni un certo numero di documenti che probabilmente sono proprio quelli che interessano gli utenti in quel periodo.

Le stesse pagine dei risultati del motore possono essere monitorate e se ne possono ricavare dati molto interessanti, per esempio, relativamente all’esempio precedente, Google può dedurre che “natale” è un argomento “caldo”, cioè attuale ed importante, anche dal fatto che probabilmente nel periodo natalizio cresce il numero di documenti indicizzati riguardanti il natale. Ovviamente per Google è molto semplice rilevare quando esiste un picco nel numero dei documenti da lui restituiti per una ricerca.

Un altro fattore che può aiutare ad individuare un argomento “caldo” può essere la variabilità dei documenti restituiti da una ricerca, anche se il numero degli stessi non varia in modo sostanziale. Supponiamo per esempio che in un certo momento i risultati della ricerca “vincitore scudetto” cambino improvvisamente e la maggior parte di essi contenga il nome di una particolare squadra: questo significa che probabilmente questa squadra ha vinto lo scudetto, oppure è passata inaspettatamente alla guida della classifica, in ogni caso siamo di fronte ad un argomento “caldo” e Google trarrà le sue conclusioni.

Ma addirittura il comportamento degli utenti rispetto alle pagine dei risultati delle ricerche può venire “monitorato”. Ovviamente non stiamo parlando di violazione della privacy, in quanto questi dati non sono collegati ad utenti specifici.

Per i motori di ricerca è abbastanza facile verificare quale dei documenti restituiti in una “SERP” (la pagina dei risultati di una ricerca) viene selezionato dagli utenti. Questo può essere fatto, per esempio, attraverso un sistema di redirect o tramite javascript. Google ogni tanto ha l’abitudine di sostituire i link “diretti” verso i siti presenti nelle sue “SERP” con link che puntano ad uno script che poi dirotta l’utente in modo trasparente verso il sito finale. Per l’utente non cambia niente ma la sua scelta può essere adeguatamente registrata, analizzata ed utilizzata. Più in particolare se un documento presente all’interno di una pagina dei risultati viene selezionato più spesso di altri Google può dedurre che meriti un punteggio maggiore in quanto l’utenza finale lo trova più interessante degli altri.

Nella sezione del brevetto di Google sui dati storici relativa all’aggiornamento dei contenuti abbiamo spiegato che il motore di ricerca può assegnare un punteggio maggiore ai documenti più recenti e/o più spesso aggiornati, ma questo non è tutto: attraverso l’analisi del comportamento degli utenti nel tempo il motore può capire per quali ricerche gli utenti ritengono importante che i risultati siano particolarmente aggiornati.

In pratica se in una pagina dei risultati coesistono documenti più aggiornati/recenti e meno aggiornati/recenti il motore analizzando nel tempo le scelte degli utenti può capire se questi scelgono tendenzialmente i documenti recenti o meno e decidere così se per quella ricerca dovranno essere premiati o meno gli aggiornamenti frequenti e/o i documenti più recenti. Per esempio per ricerche del tipo “arte rinascimentale” non è affatto scontato che gli utenti preferiscano i documenti più aggiornati a meno che non sia in corso un evento “caldo” legato a tale ricerca, come una grande mostra o simili.

Infine viene fatto un accenno al fatto che se un documento risulta molto ben posizionato per una serie di ricerche discordanti, cioè riguardanti argomenti estremamente diversi questo può essere, “ma non necessariamente”, considerato un segnale di SPAM, cioè un tentativo di influenzare gli algoritmi del motore. Probabilmente una volta rilevata una situazione di questo genere Google effettua altri controlli sui dati relativi a quel documento, allo scopo di determinarne la natura ed il vero valore.

Quasi certamente il termine “documento” in questa accezione si riferisce più al sito che al singolo documento e il pensiero vola verso certe tipologie di siti che imitano dei “portali orizzontali” o delle directory al solo scopo di costruire una serie di pagine ottimizzate per gli argomenti più svariati, anche con contenuti reali praticamente inesistenti, più che altro per incassare i proventi di affiliazioni pubblicitarie.

I Link

Analizzare le date di apparizione e sparizione dei backlink fornisce a Google molte indicazioni sul valore dei documenti e dei link che essi contengono.

I link sono stati uno dei primi fattori esterni ai siti web ad essere utilizzato per migliorare gli algoritmi di posizionamento dei motori di ricerca. Inizialmente i motori di ricerca si limitavano a calcolare la link-popularity dei documenti, poi Google habrevettato ed introdotto un nuovo sistema che permetteva di pesare in modo diverso l’importanza dei vari link, ovvero il pageRank.

Ad oggi praticamente tutti i motori di ricerca principali utilizzano il testo contenuto nelle ancore dei link come fattore di posizionamento, e adesso con il brevetto di Google relativo ai dati storici si aprono nuove possibilità di analisi molto interessanti, sia dal punto di vista dell’affinamento degli algoritmi di ranking che da quello dell’eliminazione dello spam.

I link che puntano ai vari documenti nel web appaiono e scompaiono, in seguito alle modifiche che i webmaster effettuano sui loro siti web.

Analizzando l’evoluzione nel tempo di vari fattori riguardanti i link che puntano ad un documento (backlink) si possono individuare elementi importantissimi per capire se il documento è importante, aggiornato, obsoleto, relativo ad un argomento “caldo” oppure si tratti di spam.

Secondo il brevetto in questione, per ogni documento indicizzato Google memorizza la data in cui appare ogni nuovo backlink (un link che punta al documento in questione), cioè la data in cui lo spider del motore incontra per la prima volta un documento che contiene il backlink, o la data in cui viene trovato un nuovo backlink in un documento già conosciuto.

Analizzando le date in cui appaiono i backlink di un documento, Google può verificare quanti di questi siano apparsi, per esempio, nell’ultimo anno, e nel caso siano tutti o in gran parte precedenti, dedurre che il documento ha perso di importanza oppure sia ritenuto sorpassato. Inoltre attraverso la memorizzazione delle date di apparizione dei backlink è possibile identificare il ritmo, la velocità con cui questi link appaiono e stabilire se è costante, in calo, oppure in crescita.

Si può ipotizzare che un documento in cui il ritmo di apparizione dei backlink è crescente sia un documento che viene considerato importante ed aggiornato. Viceversa un documento che viene linkato sempre meno col passare del tempo è probabilmente un documento che ha perso di importanza, probabilmente superato o poco aggiornato.

Questa analisi può venire affiancata da quella complementare che invece tiene sotto controllo la sparizione dei backlink già rilevati. Ovviamente un documento che nell’ultimo anno abbia perso molti backlink viene considerato poco aggiornato o poco importante. La stessa cosa si può dedurre di un documento il cui il ritmo di sparizione dei backlink sia in crescita.

In base a questi criteri verranno assegnati ai documenti dei punteggi che contribuiranno a migliorare oppure a peggiorare il posizionamento del documento nelle “serp” (pagine dei risultati) di Google.

Come già per il pagerank, calcolando questi punteggi Google assegna importanza diversa ai backlink dei vari documenti. I fattori che si possono estrapolare dai dati storici e che contribuiscono a differenziare i pesi dei link sono molteplici. Un fattore importante è la “freschezza” del link. Un link è considerato “fresco” sia quando viene trovato in un documento nuovo che in uno recentemente aggiornato; in questo caso il link porta al documento a cui punta un punteggio maggiore. Se il documento contenente il link viene aggiornato in maniera rilevante ed il link vi viene mantenuto, esso è considerato ancora più importante, perchè si ipotizza un atto volontario preciso del webmaster di mantenere un link ad una risorsa utile nonostante l’aggiornamento del sito. I link che hanno vita breve, cioè che provengono da documenti che cambiano molto spesso contenuti e link, a parità di freschezza vengono invece considerati meno importanti di quelli più “stabili”.

Abbastanza stranamente in questa sezione del documento si citano anche altri sistemi per “pesare” i link non basati sull’analisi dei dati storici: viene per esempio affermato che i link provenienti da documenti istituzionali, come per esempio quelli governativi sono considerati più importanti degli altri. La stessa cosa vale per i documenti “autoritativi”, ovvero quelli che sono linkati da un grande numero di altri documenti e che, per questo, sono considerati delle “authority”, cioè documenti di riferimento per la comunità del web (o almeno per una sua parte).

l sistemi usati per assegnare i punteggi ai documenti possono quindi essere calcolati attraverso la somma dei pesi dei loro backlink, dove questi pesi dipendono anche dalla freschezza dei link e questo sistema, analogamente a quello del pageRank originale, può esser utilizzato in modo ricorsivo.

A mio parere la cosa più probabile è che il calcolo del pageRank ormai differisca di molto da quello della formula originale e la valutazione della freschezza dei backlink potrebbe appunto essere uno dei tanti fattori correttivi applicati.

Google può inoltre facilmente individuare dei picchi anomali nell’acquisizione di backlink da parte di un documento rispetto a modelli “standard” che identificano le varie tipologie di documenti. In questo caso il motore può supporre di trovarsi di fronte ad un sito che tratta un argomento “caldo”, e quindi premiarlo, ma può anche ipotizzare di avere rilevato un tentativo di spam, eseguito attraverso l’acquisizione di backlink scambiati, comprati, oppure ottenuti attraverso guestbook, forum o altre pagine dove sia possibile inserire un link senza richiederlo al webmaster. Ovviamente in questo caso difficilmente il documento verrà premiato.

Viene detto chiaramente in più di una sezione del documento che la rilevazione di picchi improvvisi in processi che solitamente si svolgono più lentamente fa scattare dei campanelli d’allarme, per cui è caldamente raccomandabile non accumulare grandi ed improvvisi aumenti di link che puntano ai propri documenti, magari addirittura tutti con lo stesso testo nell’ancora, perché questo tipo di evento può far scattare ulteriori controlli che potrebbero sfociare in penalizzazioni o addirittura ban dall’indice del motore.

I testi delle ancore dei link

I testi dei link che puntano ad un documento hanno da tempo un grande peso per il posizionamento nei motori di ricerca. Google è capace di usare questo tipo di informazione anche per eliminare un certo tipo di SPAM.

Tutti i motori di ricerca principali utilizzano i testi delle ancore dei link che puntano ad un documento come fattore di ordinamento rispetto alle query (interrogazioni) degli utenti, questo perché un link “buono”, cioè spontaneo, ad un documento contiene probabilmente del testo attinente al contenuto del documento stesso. La cosa è ben nota anche nel mondo dei webmaster e dei SEO (search engines optimizers) che cercano preferibilmente di ottenere backlink il cui testo contenga la parola chiave per la quale si vuole posizionare il documento.
Per inciso, questo sistema è valido anche per i link interni di un sito web, come ho spiegato nella sezione relativa nell’area “Ottimizzazione dei siti web”.

Monitorare i testi dei link, però può aiutare il motore di ricerca, in questo caso Google, a scoprire un tentativo di manipolare i suoi risultati molto più “sporco” dell’ottimizzazione del testo dei backlink.

Capita spesso che domini con pageRank elevato dovuto a molti backlink ottenuti magari spontaneamente nel corso degli anni scadano e per varie ragioni non vengano rinnovati dal loro proprietario. Niente paura, ci sono decine di volenterosi webmaster che non aspettano altro! Il dominio abbandonato viene immediatamente rilevato da uno di questi ed utilizzato per creare un sito, magari con contenuti completamente diversi, ma che può contare fin dall’inizio sul pageRank dovuto ai link che altri webmaster avevano deciso di far puntare verso il vecchio sito.

Questo fa sì che nelle serp (le pagine dei risultati dei motori di ricerca) si possano trovare, e anche molto ben posizionati, siti web che hanno ben poco a che vedere con la ricerca eseguita, almeno finchè i loro backlink non vengono eliminati dai webmaster degli altri siti che si accorgono del cambiamento, e non è neppure scontato che questo succeda.

Google nel suo brevetto relativo ai dati storici dice chiaramente che il cambiamento del testo di un link che punta ad un documento è un segnale per identificare un aggiornamento del documento stesso. In questo caso visto che il link è stato mantenuto e addirittura aggiornato ne verrà sicuramente rinnovata la “freschezza”, conformemente a quanto viene dichiarato nella sezione del documento riguardante i criteri basati sui link.

Ovviamente vale anche il discorso inverso: se un documento subisce un aggiornamento rilevante ed i suoi backlink vengono lasciati inalterati o vengono aggiornati anch’essi siamo ancora in una situazione in cui la “freschezza” del documento e dei link vengono aggiornate.

Se invece Google dovesse rilevare che l’argomento principale del documento è cambiato, cosa che è possibile fare attraverso algoritmi di estrazione/distillazione del topic, potrebbe ritenere di trovarsi di fronte ad un tentativo di SPAM del tipo sopra indicato e decidere di ignorare i backlink che puntano al documento e tutti i dati storici che erano stati collegati ad esso fino al momento del cambiamento.

Il traffico dei documenti

In questa sezione del brevetto di Google sui dati storici si illustrano alcune applicazioni dell’analisi del traffico verso i documenti, un parametro difficile da monitorare ma anche per questo i motori si stanno attrezzando.

Come si è visto a proposito del calcolo del PageRank, un parametro importante negli algoritmi di ordinamento dei motori di ricerca è l’importanza che i documenti hanno, o si reputa che abbiano, rispetto alla struttura del web nel suo complesso. Nel caso specifico del PageRank questa valutazione viene fatta in base alla qualità ed alla quantità dei link che puntano al documento da valutare, ma specialmente adesso che molti webmaster procurano ai loro siti una grande quantità di link, che non avrebbero mai cercato o inserito se nessuno gli avesse suggerito di farlo per migliorare il posizionamento, questo parametro rischia di perdere parte della sua importanza.

Nella misura in cui un motore di ricerca ha accesso ad informazioni riguardanti il traffico generato dai documenti, queste sono senz’altro un metodo molto diretto per capire l’importanza effettivamente attribuita dagli utenti ai documenti in questione. Ma come può un motore di ricerca ottenere questo tipo di informazioni, che tipicamente sono accessibili soltanto al webmaster del sito? I metodi esistono, ma sono ovviamente indiretti e non esaustivi, nel senso che si riferiscono sempre ad uno specifico sottoinsieme di utenti o ad uno specifico sottoinsieme di siti web.

Per cominciare esistono le statistiche di Alexa. Alexa fornisce una toolbar che permette di visualizzare per ogni sito web visitato un parametro indicativo del traffico generato da quel sito. In realtà il parametro non è relativo al traffico generato dalle visite di tutti gli utenti del web, ma soltanto da quelli che hanno installato la toolbar di Alexa. Non ho dati precisi che riportino il numero di utenti che hanno attualmente scaricato o installato questa toolbar, ma credo proprio che siano una piccola percentuale rispetto al totale dei navigatori, per cui i dati mostrati dalla toolbar possono essere indicativi, ma vanno presi con le molle, in quanto potrebbero facilmente riferirsi ad un target di utenti non abbastanza generico da permettere estrapolazioni valide.

Se pensate che le toolbar dei vari motori di ricerca, come per esempio quelle di Google Yahoo e MSN servano anche a raccogliere questo tipo di dati, probabilmente avete ragione. Per esempio la Toolbar di Google vi mostra il valore di PageRank di ogni pagina visitata e per fare questo deve comunicare ad un server di Google l’indirizzo della pagina. Pensare che questo indirizzo non venga memorizzato per fini statistici sarebbe una grossa ingenuità.

Un altro sistema che Google può usare per stimare il traffico generato dai documenti è il suo servizio di Adsense attraverso il quale ormai numerosissimi webmaster pubblicano annunci degli inserzionisti del servizio Adwords. Per tutti i documenti sui quali vengano pubblicati tali annunci Google non solo può, ma deve verificare il traffico generato, perché questo è indicativo delle impressioni generate dagli annunci, che poi vengono confrontate con i clic effettivi sugli stessi per calcolarne il rendimento. Anche Yahoo si sta allineando a Google nella fornitura di questo tipo (assai redditizio) di servizio. Google afferma anche di essere in grado di ottenere informazioni utili anche dal monitoraggio del tipo di inserzioni presenti in un documento e dalla percentuale di clic che queste ricevono. Cosa abbastanza semplice nel caso delle inserzioni da lui fornite, ma probabilmente impossibile altrimenti.

Un altro tool di Google, che probabilmente da questo punto di vista avrebbe rappresentato una killer-application, era il web accelerator, ovvero una applicazione che permetteva, una volta installata, di navigare nel web ricevendo invece delle pagine originali la loro copia cache memorizzata da Google su un suo server proxy, velocizzando così la navigazione. Attualmente il link per il download dell’applicazione è stato rimosso, sebbene l’indirizzo con la descrizione del servizio sia ancora attivo, perché fu quasi subito verificato che navigando con il Google accelerator (Beta) alcuni utenti potevano accedere a documenti che normalmente avrebbero richiesto un’autorizzazione per essere visualizzati.

Un progetto per certi versi simile, che ha appena viso la luce è invece Google Secure Access, un software che permette di collegarsi ad internet tramite una VPN con alcuni access-point di Google, superando così alcune debolezze dello standard WI-fi. Gli access point di Google sono per adesso molto pochi, ma sono sicuramente destinati ad aumentare, forse fino a formare una vera e propria “Googlenet”, ed è ovvio che i dati registrati da questi server, che praticamente fungono da router per gli utenti, saranno utilizzati per fini statistici, pur nel rispetto della privacy dei navigatori, cioè non associando i dati agli utenti.

Il comportamento degli utenti

Analizzare come varia nel tempo il comportamento degli utenti verso un documento restituito per una data ricerca può fornire indicazioni sulla validità del documento.

I motori di ricerca hanno nelle loro pagine dei risultati un potente mezzo di analisi del comportamento degli utenti, un mezzo che può fornire preziose indicazioni sul grado di utilità (e di aggiornamento) che l’utente ha riscontrato nel documento scelto rispetto alle informazioni che ha ricercato.

Si tratta principalmente di stabilire per quanto tempo l’utente abbia consultato il documento dopo averlo selezionato dalla pagina dei risultati del motore di ricerca. Se il documento viene mediamente consultato dagli utenti per un determinato tempo, diciamo 3 minuti, ma da un certo momento in poi questo tempo di consultazione cala bruscamente, il motore di ricerca può dedurre che per qualche ragione il documento non fornisca più informazioni attendibili/utili agli utenti relativamente alla ricerca effettuata.

Per esempio il documento potrebbe contenere informazioni palesemente obsolete, nel qual caso molti utenti probabilmente tornerebbero velocemente indietro, alla pagina dei risultati del motore di ricerca, per selezionarne uno diverso.

Questo è un comportamento facilmente tracciabile, per esempio attraverso l’uso di javascript che, attivati dai click sui link delle pagine dei risultati del motore di ricerca, fornisono informazioni sulle scelte ed i comportamenti degli utenti.

Questo tipo di analisi è ulteriormente facilitato nel caso l’utente abbia installato una toolbar, come per esempio la Google Toolbar, che rifornisce continuamente il motore di informazioni sulle pagine visitate dagli utenti.

Oltre al tempo trascorso su un documento anche il numero di volte nel quale questo viene selezionato dalla pagina dei risultati viene considerato, non sorprendentemente, un fattore significativo. In entrambi i casi l’aumento o il decremento di questi parametri rispetto alle loro medie storiche può alterare dei punteggi specifici che, rispettivamente, migliorerebbero o peggiorerebbero il posizionamento del documento rispetto alla ricerca in questione.