Che cosa si intende per data mining
Per Data Mining, che in italiano si traduce come estrazione di dati, si intende l’individuazione di informazioni, precedentemente sconosciute e implicite, che possono essere utili per la scoperta di pattern significativi. Essi infatti sono provenienti da grandi banche dati che possono essere sia singole che multiple, tramite tecniche automatizzate che utilizzano precisi software o algoritmi adatti a determinate esigenze. Nel caso di data mining multipli per ottenere informazioni più dettagliate è possibile unire i dati delle singole banche.
Per raggiungere il proprio scopo (il data mining può essere utilizzato e applicato in vari campi da quello economico a quello scientifico) vengono utilizzate delle reti neurali ma anche alberi decisionali, clustering e altre tipologie di analisi.
Il suo ruolo è sempre più determinante infatti per riuscire a battere la concorrenza o provare a formulare ipotesi sempre più precise in campo scientifico.
A parte le analisi vere e proprie, il data mining interessa anche gli aspetti della gestione del dato, del pre processing e della modellazione, identificazione e visualizzazione delle metriche di interesse.
Andiamo, tramite it.manager.space, a conoscere e capire le funzionalità del data mining più dettagliatamente, quali sono i suoi strumenti e i principali campi di applicazione.
Le origini del data mining
Il data mining, che prende ispirazione dalle aree di machine learning e intelligenza artificiale, nasce come uno strumento per sostituire i tradizionali metodi di analisi, ormai non idonei a causa della quantità, della dimensione e dell’eterogeneità dei dati.
Come funziona l’attività del data mining
Il data mining quindi permette, partendo da informazioni cosiddette criptiche, si arrivi ad una conoscenza delle stesse sfruttabile per altri fini.
La procedura completa prende il nome di KDD, knowledge discovery in database, e segue una precisa sequenza:
-
identificare lo scopo che si vuole raggiungere;
-
operare una prima selezione dei dati utili a raggiungere lo scopo predefinito;
-
separare i dati tra quelli utili e quelli inutili, fino ad arrivare ad acquisire le informazioni per crearne un modello di riferimento;
-
individuare il formato con cui sono rappresentati i dati, convertendoli con il software di analisi;
-
il data mining, dove si scandaglia il data warehouse fornendo la risposta cercata, spesso con una serie di passaggi ripetuti più volte, analizzando step by step i vari risultati;
-
controllare infine se l’obiettivo è stato raggiunto, grazie all’interpretazione dei risultati ottenuti, se no si procede ad un’eventuale modifica e di conseguenza alla ripetizione dei passaggi precedenti.
Quali sono i compiti del data mining?
Il data mining ha quindi dei compiti che se attuati nella maniera corretta possono portare ai risultati e agli obiettivi sperati:
-
la classificazione: consiste nell’individuare classi e insiemi di elementi accomunati dall’attributo di far parte di una di esse;
-
clusterizzazione: si tratta della divisione e identificazione di una serie di gruppi di elementi omogenei, che si differenziano dalla classificazione grazie alla particolarità per cui restano occulte fino alla loro scoperta;
-
associazione: ossia la scoperta dei nessi presenti all’interno dei dati di una banca dati;
-
regressione: assomiglia alla classificazione ma si differenzia da essa perché le sue variabili possono avere un numero elevato o infinito di valori. Un particolare tipo di regressione sono le time series le quali includono variabili temporali;
Quali sono i principali strumenti utilizzati per il data mining?
Ogni strumento viene utilizzato per determinati obiettivi, spesso integrandosi tra loro.
Uno dei più importanti è sicuramente la rete neurale, che si avvicina molto alle funzionalità di una rete neurale biologica, poiché all’interno ha un set di istruzioni e un algoritmo di apprendimento grazie ai quali riescono a risolvere diversi tipi di problemi. Si divide in apprendimento supervisionato, quando viene allenata da una serie di input e output, oppure non supervisionato, addestrata solo con input.
Queste due tipologie di reti neurali permettono di analizzare proficuamente i big data così da effettuare associazioni, classificazioni e clustering.
Un altro strumento principale per il data mining è l’albero di decisione, con cui, iniziando dalla radice, chiamata training set, si opera una classificazione in cui vengono identificate le cause che portano al verificarsi di un determinato evento.
Un esempio pratico di data mining
Tramite il data mining si possono scoprire le abitudini degli acquirenti e i negozi preferiti da essi, che tipo di personale prediligono , per chi comprano questi prodotti e la loro età, che tramite una serie di correlazioni e associazioni nascoste, permettono di adottare strategie di marketing mirate all’acquisto di quel prodotto.