Data mining
Da Wikipedia, l'enciclopedia libera.
In informatica, il data mining (letteralmente: estrazione da una miniera di dati) è l'estrazione di informazione utile, eseguita in modo automatico o semiautomatico, da grandi quantità di dati. Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori (per esempio in quello delle ricerche di mercato).
Le tecniche e gli algoritmi di data mining hanno lo scopo di analizzare vasti campioni di dati per identificare interessanti regolarità, dette pattern. I pattern così identificati possono essere, nella ricerca scientifica, il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni; in generale, possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.
Un concetto correlato al "data mining" è quello di machine learning (apprendimento automatico); infatti, l'identificazione di pattern può paragonarsi all'apprendimento, da parte del sistema di data mining, di una relazione causale precedentemente ignota, cosa che trova applicazione in ambiti come quello degli algoritmi euristici e della intelligenza artificiale. Tuttavia, occorre notare che il processo di data mining è sempre sottoposto al rischio di "rivelare" relazioni causali inesistenti.
Una tecnica molto diffusa per il data mining è l'apprendimento mediante classificazione. Questo schema di apprendimento parte da un insieme ben definito di esempi di classificazione per casi noti, dai quali ci si aspetta di dedurre un modo per classificare esempi non noti. Tale approccio viene anche detto con supervisione (supervised), nel senso che lo schema di apprendimento opera sotto la supervisione fornita implicitamente dagli esempi di classificazione per i casi noti; tali esempi, per questo motivo, vengono anche detti training examples, ovvero esempi per l’addestramento. La conoscenza acquisita per apprendimento mediante classificazione può essere rappresentata con alberi di decisione.
[modifica] Strumenti per il data mining
[modifica] Voci correlate
- Regola Associativa
- Overfitting
- Rete neurale
- Clustering
- Albero di decisione
- Data cleaning