Le tecniche di Data Mining sono specifiche implementazioni degli algoritmi, utilizzate per portare a termine le operazioni di data mining. Si possono seguire diversi modelli ed effettuare varie operazioni.
Il Modello Predittivo è simile all’esperienza dell’apprendimento umano, quando utiliza le osservazioni per creare un modello delle caratteristiche principali, sottostanti ad un certo fenomeno. Nel data mining, i modelli predittivi vengono utilizzati per analizzare un database esistente, al fine di determinare qualche caratteristica essenziale relativa ai dati. I modelli predittivi vengo infatti sviluppati in due fasi:
o training: ovvero la costruzione di un nuovo modello sulla base di dati storici;
o testing: cioè il provare il modello su dati nuovi, precedentemente non noti, per determinarne l’accuratezza e le performances del modello stesso.
L’approccio della modellazione predittiva trova la sua più ampia applicazione nei settori del customer retention management, del credit approval, del cross selling e del target marketing.
L’operazione di Clustering (o data base segmentation) ha lo scopo di partizionare un database in segmenti di records simili che condividono tra loro un numero di proprietà tale da poterli considerare omogenei, senza nessun intervento da parte dell’utente in merito ai tipi o al numero di segmenti che ci si aspetta di individuare all’interno del database.
L’operazione di Link Analysis cerca di stabilire connessioni (associations) tra records individuali o insiemi di records di un database.
Tra le principali tecniche di mining possiamo annoverare:
- Profilazione. Il profiling è una speciale tecnica di valutazione qualitativa in grado di “stimare” dettagliatamente le caratteristiche del singolo utente in modo da poter cogliere per ognuno abilità varie, tipi di comportamento, aspetti della personalità. Dati questi, che sottoposti a specifici esami sono in grado di generare “correlazioni” significative da un punto di vista commerciale. Quest’ultimo aspetto della profilazione prende il nome di data mining : una sorta di “ricostruzione ordinata” e classificata di una montagna di dati reperiti precedentemente che identificano l'utente in base al sistema operativo utilizzato (Windows, Linux ecc. ), al software adoperato per accedere ad Internet (Internet Explorer, Mozilla, Opera), e all'ID utente.
- Market Basket Analysis. Sono tutti quei metodi che consentono di individuare profili o modelli ricorrenti nell’acquisto di prodotti/servizi al fine di rendere più efficaci le azioni di marketing e di merchandising. E' uno strumento di data mining basato sulle regole associative che permette di studiare le abitudini di acquisto dei consumatori per evidenzi
are affinità esistenti tra prodotti o gruppi di prodotti venduti. Lo scopo è quello di inferire delle implicazioni, del tipo "if condition then result", che vadano ad espreimere la probabilita' di acquisto di prodotti differenti per stabilire quanto l’acquisto di un prodotto influenzi l’acquisto di un altro. Es: l’80% degli studenti che conseguono un certo titolo di studio (es. laurea), trovano lavoro..così da poter affermare che titolo di studio X e lavoro Y sono correlati, o altrimenti, che esiste un implicazione del tipo: laurea-->lavoro. Sarà compito poi degli strumenti informatici del data mining estrarre le informazioni e conoscenze di supporto alle decisioni aziendali. -
Il Modello Predittivo è simile all’esperienza dell’apprendimento umano, quando utiliza le osservazioni per creare un modello delle caratteristiche principali, sottostanti ad un certo fenomeno. Nel data mining, i modelli predittivi vengono utilizzati per analizzare un database esistente, al fine di determinare qualche caratteristica essenziale relativa ai dati. I modelli predittivi vengo infatti sviluppati in due fasi:
o training: ovvero la costruzione di un nuovo modello sulla base di dati storici;
o testing: cioè il provare il modello su dati nuovi, precedentemente non noti, per determinarne l’accuratezza e le performances del modello stesso.
L’approccio della modellazione predittiva trova la sua più ampia applicazione nei settori del customer retention management, del credit approval, del cross selling e del target marketing.
L’operazione di Clustering (o data base segmentation) ha lo scopo di partizionare un database in segmenti di records simili che condividono tra loro un numero di proprietà tale da poterli considerare omogenei, senza nessun intervento da parte dell’utente in merito ai tipi o al numero di segmenti che ci si aspetta di individuare all’interno del database.
L’operazione di Link Analysis cerca di stabilire connessioni (associations) tra records individuali o insiemi di records di un database.
Tra le principali tecniche di mining possiamo annoverare:
- Profilazione. Il profiling è una speciale tecnica di valutazione qualitativa in grado di “stimare” dettagliatamente le caratteristiche del singolo utente in modo da poter cogliere per ognuno abilità varie, tipi di comportamento, aspetti della personalità. Dati questi, che sottoposti a specifici esami sono in grado di generare “correlazioni” significative da un punto di vista commerciale. Quest’ultimo aspetto della profilazione prende il nome di data mining : una sorta di “ricostruzione ordinata” e classificata di una montagna di dati reperiti precedentemente che identificano l'utente in base al sistema operativo utilizzato (Windows, Linux ecc. ), al software adoperato per accedere ad Internet (Internet Explorer, Mozilla, Opera), e all'ID utente.
- Market Basket Analysis. Sono tutti quei metodi che consentono di individuare profili o modelli ricorrenti nell’acquisto di prodotti/servizi al fine di rendere più efficaci le azioni di marketing e di merchandising. E' uno strumento di data mining basato sulle regole associative che permette di studiare le abitudini di acquisto dei consumatori per evidenzi
are affinità esistenti tra prodotti o gruppi di prodotti venduti. Lo scopo è quello di inferire delle implicazioni, del tipo "if condition then result", che vadano ad espreimere la probabilita' di acquisto di prodotti differenti per stabilire quanto l’acquisto di un prodotto influenzi l’acquisto di un altro. Es: l’80% degli studenti che conseguono un certo titolo di studio (es. laurea), trovano lavoro..così da poter affermare che titolo di studio X e lavoro Y sono correlati, o altrimenti, che esiste un implicazione del tipo: laurea-->lavoro. Sarà compito poi degli strumenti informatici del data mining estrarre le informazioni e conoscenze di supporto alle decisioni aziendali.
- Decision Trees. Tecnica che permette di creare alberi decisionali e di classificazione per identificare con grande semplicità gruppi, individuare relazioni tra gruppi e realizzare analisi predittive. Questi possono essere utilizzati per segmentare e stratificare i dati, esplorare relazioni e interazioni, accorpare categorie simili e discretizzare variabili continue. La visualizzazione semplice e intuitiva ad albero permette la presentazione dei risultati ottenuti anche ad un pubblico non tecnico. Nel data mining un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di dati. Si descrive una struttura ad albero dove i nodi foglia rappresentano le classificazioni e le ramificazioni l'insieme delle proprietà che portano a quelle classificazioni. Di conseguenza ogni nodo interno risulta essere una macro-classe costituita dall'unione delle classi associate ai suoi nodi figli. Il predicato che si associa ad ogni nodo interno (sulla base del quale avviene la ripartizione dei dati) è chiamato condizione di split. In molte situazioni è utile definire un criterio di arresto (halting), o anche criterio di potatura (pruning) al fine di determinarne la profondità massima. Questo perché il crescere della profondità di un albero (ovvero della sua dimensioni) non influisce direttamente sulla bontà del modello, (una crescita eccessiva della dimensione dell'albero porterebbe ad aumento sproporzionato della complessità computazionale rispetto ai benefici riguardanti l'accuratezza delle previsioni/classificazioni).
Nessun commento:
Posta un commento