Il Recupero delle Informazioni (IR) è uno dei settori tecnologici di base dei motori di ricerca per l’estrazione dei dati dagli archivi.

Il settore SEO è in continua crescita ed evoluzione, sempre più web-master, web-designer e programmatori si avvicinano al posizionamento sui motori di ricerca.

I motori di ricerca si evolvono ininterrottamente: ben presto, avendo archiviato e ottimizzato le tecniche per il recupero dei documenti, rivolgeranno la propria attenzione all’intelligenza artificiale.

Ogni SEO per cercare di “seguire il passo” dei motori, dovrebbe conoscere il funzionamento degli algoritmi usati dai motori per la ricerca e l’archiviazione, la classificazione, la valorizzazione e il recupero dei documenti.

Conoscere gli algoritmi significa studiare, provare, testare, e studiare.

E gli studi devono essere approfonditi e di settore: bisogna comprendere come ragiona il motore di ricerca per sapergli comunicare correttamente le informazioni di cui necessita.

In questa sezione verrà studiato l ‘Information Retrieval , cioè il recupero delle informazioni , cercando di mettere in luce almeno le basi e le varie tecniche usate nel recupero delle informazioni, come il Vector Space Model (modello spazio vettoriale)

L’Information Retrieval, è uno dei settori di base per lo sviluppo di applicazioni e tecnologie per il reperimento, l’archiviazione e il recupero di dati (testi, documenti, media, altro): dai criteri di espansione di una ricerca allo studio del Relevance Feedback e criteri per la raffinazione di una ricerca basato sulle preferenze dell’utente, dal Latent Semantic Indexing, (LSI), indicizzazione semantica latente, ai sistemi di thesaurus usati per l’associazione e la correlazione di parole e argomenti.

Cercherò di approfondire le varie teorie trattate soprattutto in relazione al posizionamento su Google: l’unico motore di ricerca di cui sono pubblici alcuni algoritmi di funzionamento brevettati ufficialmente all’indirizzo

I Brevetti di Google
Espansione della query
Creare nuovi link
Link a porzioni di documento

Molte sono le pubblicazioni di esperti ricercatori e scienziati sull’Information Retrieval: la maggior parte delle pubblicazioni provengono da fonti universitarie, tra cui in particolare segnalo quelle della Standford University, in cui sono contenute alcune pubblicazioni di K.Bharat, ingegnere di Google e progettista di Google News, come “The Term Vector Database: fast access to indexing terms for Web pages” (2000), When experts agree: using non-affiliated experts to rank popular topics. (ACM
Abstract) 
  (HTML)

Raymie Stata, Krishna Bharat, Farzin Maghoul. The Term Vector Database: fast access to indexing terms for Web pages. 9th International WWW Conference (WWW9) WWW9/Computer Networks 33(1-6): 247-255 (2000) (HTML)

Information Retrieval: dall’Espansione delle Ricerche al Term Vector Model

L’espansione delle ricerche viene effettuata dai motori di ricerca al fine di restituire risultati più pertinenti associati alla ricerca effettuata. L’espansione di una ricerca è un’applicazione dei diversi modelli di Information Retrieval usati dai motori di ricerca per il recupero delle informazioni.

Quando un utente effettua una ricerca sul motore, lo scopo principale del motore di ricerca è “non far ridere” l’utente con i risultati che gli propone. Per affinare questo semplice concetto, il settore dell’ Information Retrieval studia da anni metodi e modelli logico-matematici per catalogare, categorizzare, correlare, reperire e restituire informazioni pertinenti alla richiesta inoltrata, e i motori di ricerca sono quelli che ne fanno maggior uso.

Per espandere una ricerca , cioè per associare diversi termini semanticamente o logicamente correlati alla ricerca effettuata, il motore di ricerca potrebbe usare differenti modelli logico matematici: dai diversi sistemi Thesaurus per la costruzioni di elenchi e liste di parole simili, sinonimi, contrari e termini semanticamente collegati, al Term Vector Model , che consente al motore di ricercare e controllare quali siano i termini rilevanti nel documento e pertinenti con la ricerca effettuata,e quale sia il loro peso.

Il Term Vector Model, è il più importante tra i modelli usati per costruire un sistema di recupero di informazioni – IRS (Information Retrieval System), capace di fornire insiemi di risultati ordinati a seguitodi una ricerca effettuata.

Mediante l’applicazione del vettore dei termini, il motore di ricerca è in grado di comprendere il tema di un documento, classificare e ordinare le pagine web e i documenti per argomento.

Si possono pensare numerose altre applicazioni, che potrebbero essere ià utilizzate dai motori di ricerca, basandosi solo sui concetti di somiglianza similarità tra diversi vettori di termini e sui fattori di valutazione dei pesi, come il generico TF*IDF (TermFrequency * Inverse Document Frequency).

Studiare questo settore dei motori di ricerca e comprendere i vari meccanismi usati per il recupero delle informazioni, è determinante per capire come funzionano i motori di ricerca: l’IR è un argomento molto vasto ed esistono molti modelli da analizzare, è un settore dell’informaticain cui studiosi e ricercatori si cimentano dagli anni 60.

In questa sezione cercherò di fare un breve quadro sull’IR e sui modelli più usati.