Il Machine Learning per processi decisionali guidati dai dati

 In Big Data, Machine Learning, Predictive Analytics

Machine LearningHanno sicuramente riscosso molta attenzione gli annunci dei nuovi algoritmi in grado di guidare automaticamente un drone di primo soccorso, di ideare composizioni musicali o di individuare plagi. Dalla meccanica al mondo del Marketing, i nuovi sviluppi in campo tecnologico aprono le porte dell’automatizzazione a campi mai esplorati.

Il potenziale del Machine Learning (ML) è quello di semplificare operazioni tecnicamente complesse servendosi della statistica. Partendo da obiettivi chiari e definendo i passi da intraprendere, il Machine Learning sfrutta in maniera intelligente l’universo di informazioni a disposizione e ne ricava una guida fondamentale nel supporto dei processi decisionali.

Prendere decisioni in contesti complessi

L’applicazione più comune degli strumenti di Machine Learning è quella di produrre previsioni. Che si tratti di realizzare consigli personalizzati per i consumatori, di prevedere la fedeltà a lungo termine dei clienti o di stimare il rischio di credito di un prestito, il problema di business consiste sempre nel dover prendere una decisione corretta in un contesto complesso, in cui i fattori importanti sono molti. Il risultato consiste in una previsione, la cui validità verrà validata a posteriori: per esempio, è possibile verificare se un cliente ha cliccato sul prodotto consigliato, o se cambiare la visibilità di un prodotto incentivi la chiusura del carrello.

I passi fondamentali

I concetti principali alla base del Machine Learning sono:

  1. l’estrazione delle informazioni, che determina quali dati (caratteristiche o variabili) tra tutti quelli a disposizione siano utili nel modello;
  2. la regolarizzazione, che individua il modello ottimale e stabilisce possibili pesi da dare alle variabili (con l’assegnazione di un peso si aumenta o si diminuisce l’importanza delle variabili);
  3. la validazione, che testa l’accuratezza della previsione che il modello stima.

Ciascuno di questi passi aiuta a identificare e separare il segnale dal rumore, per individuare, in mezzo alla mescolanza e varietà di correlazioni che coesistono tra i dati (segnale misto a rumore), le relazioni che spiegano in maniera significativa il fenomeno oggetto di studio (segnale).

L’estrazione delle informazioni

Nei casi più semplici, la scelta delle variabili da inserire nel modello comporta una selezione dei dati. Il Machine Learning, con tecniche automatiche di clustering, si sostituisce alla classificazione manuale, permettendo l’individuazione di relazioni significative non immediatamente visibili o note. Un esempio sono le tecniche di riconoscimento delle caratteristiche primarie: come l’individuazione dei tratti somatici dei visi o la classificazione di un brano in un genere musicale.

La regolarizzazione

Come possiamo sapere se le caratteristiche selezionate spiegano effettivamente il fenomeno? Un modello troppo banale, come quello che prevede lo stesso risultato per ogni caso (consigliando per esempio lo stesso prodotto a tutti i clienti) appiattisce la variabilità e l’individualità dei casi e ignora tutte le informazioni provenienti dei dati.

D’altro canto, un modello troppo flessibile, che cerca di adattarsi esattamente a tutti i casi disponibili, rischia di essere fuorviato dalle anomalie e dal rumore (overfitting del modello), rendendo impossibile l’individuazione di regole che spiegano le relazioni tra i fenomeni. In questo caso, il modello, oltre a essere troppo complesso, non sarà utile neppure a prevedere le situazioni future.

L’obiettivo è quindi trovare un modello in grado di in adattarsi ai dati che, trovando un compromesso tra semplicità e precisione, individui le variabili significative in grado di spiegare il presente e prevedere situazioni future.

La validazione

Machine Learning: i passi fondamentaliUna volta costruito il modello, come possiamo essere sicuri che produca buone previsioni?

Il test più importante consiste nel verificare che il modello sia accurato “fuori dal campione”, ovvero che sia in grado di spiegare relazioni e prevedere situazioni anche se applicato a nuovi dati rispetto a quelli utilizzati per costruire il modello. Questo è fondamentale per garantire affidabilità quando devono essere prese nuove decisioni. Effettuare test sul campo può essere costoso, perciò le tecniche avanzate di validazione, attualmente, si basano su simulazioni offline e sulla verifica dinamica ed efficiente online.

Nei casi di validazione offline, l’intera banca data viene suddivisa in due parti: training set e test set. Prima il modello viene creato basandosi solo sui dati del training set, quindi viene utilizzato per prevedere i risultati contenuti nel test set. In questo modo i dati del test set svolgono il ruolo di nuovi dati con i quali confrontare le previsioni ottenute. Nella fase online, invece, il modello viene implementato nel contesto reale: i nuovi dati che affluiscono in real-time permettono una verifica costante delle performance predittive e permettono un adattamento progressivo del modello, con eventuali variazioni di tendenza.

Quando un modello di Machine Learning supera la validazione, le previsioni prodotte si propongono come guida privilegiata per i processi decisionali, perché confermate dai dati. La capacità strategica del management può quindi avvalersi dell’aiuto delle informazioni contenute nei dati e affinare le proprie strategie per raggiungere obiettivi più profittevoli.

Big Data per l'Online Advertising