Motore di ricerca
Da Wikipedia, l'enciclopedia libera.
Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da lui stesso raccolti e restituisce un indice dei contenuti disponibili classificandoli in base a formule matematiche che ne indichino il grado di rilevanza data una determinata chiave di ricerca.
Uno dei campi in cui i motori di ricerca trovano maggiore utilizzo è quello dell'Information Retrieval e nel web.
Indice |
[modifica] Motori di ricerca per il web
Esistono numerosi motori di ricerca attivi sul web. Quello attualmente più utilizzato, su scala mondiale (con un indice che supera gli 8 miliardi di pagine), è Google; molto usati anche MSN (motore di ricerca della Microsoft) e Yahoo!. E' in fase di sviluppo il primo motore di ricerca europeo, Quaero.
I motori di ricerca italiani maggiormente utilizzati sono Libero e Virgilio.
[modifica] Funzionamento
La maggior parte dei motori di ricerca che opera sul web è gestito da compagnie private che utilizzano algoritmi proprietari e database tenuti segreti. Esistono comunque diversi tentativi di dar vita a motori di ricerca fondati sul software libero, alcuni esempi sono: HTdig [1], Nutch [2], Egothor [3] e OpenFTS [4].
[modifica] Le fasi
Il lavoro dei motori di ricerca si divide principalmente in tre fasi:
- analisi del campo d'azione (tramite l'uso di crawler appositi);
- catalogazione del materiale ottenuto;
- risposta alle richieste dell'utente;
[modifica] Analisi
Per analizzare il web i motori di ricerca utilizzano dei programmi detti crawler (o spider o robot), che si occupano di visitare automaticamente gli URI contenuti nel database e seguire i successivi URI che trovano all'interno dei documenti analizzati, inserendo di volta in volta nel database tutte le informazioni "sensibili" della pagina (il contenuto testuale, varie informazioni su di essa come la data di ultimo aggiornamento, e altro).
[modifica] Catalogazione
Dopo l'analisi delle pagine, a seconda di criteri che variano da motore a motore, alcune di esse vengono inserite nel database e nell'indice del motore di ricerca.
La parte testuale archiviata durante la fase di analisi verrà in seguito analizzata per fornire le risposte alle ricerche degli utenti. Molti motori di ricerca sul web rendono anche disponibile una copia dei dati testuali di ogni pagina archiviata per quando la risorsa originale sia irraggiungibile: questa funzione è detta Copia cache.
[modifica] Risposta
Rispondere alle richieste degli utenti implica la necessità di elencare i siti in ordine di rilevanza rispetto alla richiesta ricevuta.
Per stabilire la rilevanza di un sito vengono cercate nel database quei documenti che contengono la parola chiave inserita dall'utente, dopodiché ogni motore di ricerca sfrutta propri algoritmi per classificare le pagine, controllando, per esempio, quante volte le parole chiave vengono ripetute, quanti link riceve quel documento, in quali punti della pagine sono poste le parole chiave, quanti siti del database contengono link verso quella pagina, o quante volte un utente ha visitato quel sito dopo una ricerca.
[modifica] Risultati sponsorizzati
Talvolta i motori di ricerca sul web forniscono anche risultati sponsorizzati, ovvero mostrano in maggiore evidenza nelle SERP (Search Engine Result Pages, Pagine dei risultati dei motori di ricerca) siti web di aziende che pagano per risultare tra i primi risultati quando si cercano termini (detti keyword o parole chiave) che sono in relazione all'ambito di competenza dell'azienda stessa.
[modifica] Raffinazione della ricerca
La possibilità di raffinazione della ricerca varia da motore a motore, ma la maggior parte permette di utilizzare operatori booleani: ad esempio è possibile cercare "Ganimede AND satellite NOT coppiere" per cercare informazioni su Ganimede inteso come pianeta e non come figura mitologica.
Su Google e sui motori più moderni è possibile raffinare la ricerca a seconda della lingua del documento, delle parole o frasi presenti o assenti, del formato dei file (Microsoft Word, PDF, PostScript, ecc.), a seconda della data di ultimo aggiornamento, e altro ancora. È anche possibile cercare contenuti presenti in un determinato sito, ad esempio "Ganimede site:nasa.gov" cercherà le informazioni su Ganimede presenti sul sito della NASA.
[modifica] Prospettive di sviluppo
Le più recenti innovazioni nella produzione di algoritmi e di sistemi di Information Retrieval si basano sull'analisi semantica dei termini e sulla conseguente creazione di reti semantiche. Lo stesso Google ha adottato sistemi per la prevenzione dell'errore e la contestualizzazione dei risultati.
È lecito prevedere che nel giro di alcuni anni i motori di ricerca baseranno le proprie tecnologie sia sull'analisi quantitativa dei contenuti (le parole in sé), sia soprattutto su quella qualitativa (il senso delle parole). I motori di ricerca saranno, ad esempio, in grado di distinguere il senso della parola "pesca" a seconda di quale sia il contesto in cui la parola è contenuta (capire se sia il frutto, la disciplina sportiva, o altro). Per muoversi in questa direzione Google ha acquisito Oingo (un tempo noto come "il motore dei concetti") e la tecnologia dell'azienda che lo creò, la Applied Semantics.
[modifica] Collegamenti esterni
- I motori di ricerca più utilizzati in Italia (alcuni dei quali utilizzano i medesimi algoritmi)
- Yahoo
- Msn
- Windows Live Search (Live Search è il nuovo nome che Microsoft ha dato al suo noto motore di ricerca MSN)
- Virgilio
- Altavista
- IlTrovatore
- Arianna
- Seekport
- Ask