Come spiegare i Big Data a un bambino

 In Big Data

Big DataPiù viene dibattuto il concetto di Big Data (scenario, opportunità, problema o prospettiva?), tanto meno si riesce a costruire un linguaggio comune che metta d’accordo Enterprise, vendor tecnologici e addetti ai lavori. Le complessità derivano anche dal fatto che a parlare di Big Data sono persone con background e obiettivi diversi (sviluppatori, sistemisti IT, Data Scientist, Marketer…). Capita spesso quindi di discutere di Big Data in relazione all’Advertising, all’E-commerce, al CRM, e poi finire a parlare di Hadoop.

Nonostante il termine Big Data abbia avuto molta fortuna negli ultimi due anni, non sembra azzardato porre dei dubbi sull’esistenza di qualcosa da chiamare Big Data. In effetti, le definizioni più accreditate elencano una serie di caratteristiche dei dati (basate su almeno 3V – Volume, Variety, Velocity, ma se ne potrebbero aggiungere altre). Queste caratteristiche non sono identificative, ma possono essere considerate come un continuum. Anche all’interno della stessa Enterprise diversi tipi di dati possono essere più o meno in real-time, strutturati, più o meno “big”, insomma.

Il concetto di Big Data non è in opposizione a uno stato precedente, come per esempio nel caso di Programmatic vs. Traditional Advertising. Né si può pensare che prima del suo avvento la gestione dei dati non nascondesse complessità e non fossero già presenti esigenze e problematiche simili, ma espresse con termini (e approcci) diversi. Quello che manca è insomma una discontinuità rispetto al passato, fatto che spinge a considerare i Big Data più come uno scenario. In altre parole, i Big Data sono i Data dell’era digitale.

Dov’è il mio gioco preferito?

“Immagina una scatola gigantesca di giocattoli, colma di mattoncini di Lego, Duplo e i tuoi personaggi preferiti. Bello, vero? Potresti costruire tutto quello che vuoi, castelli, fortezze, camion dei pompieri, navi dei pirati. Ma con una scatola grande come te, e tutti i pezzi mischiati, è veramente difficile trovare i pezzi giusti. I Big Data sono un po’ come quella scatola di giocattoli. Un gran miscuglio di numeri e parole, veramente difficili da leggere e capire senza un aiuto. Hai deciso di costruire un camion dei pompieri. Hai bisogno di alcuni pezzi rossi, un personaggio pompiere, le ruote e la scala. Per trovarli in quella scatola forse ti servirebbe tutto il giorno. È lo stesso per i Big Data. Ci sono un sacco di informazioni utili in enormi scatole di dati, ma trovarle potrebbe essere difficile.”

Laurie Miles, Head of Analytics, SAS UK & Ireland, tratto da Big Data redefined: 13 ways to explain big data to a five-year-old

Prendiamo spunto da un articolo dal blog BigData-MadeSimple.com, Big Data redefined: 13 ways to explain big data to a five-year-old, che ha chiesto a 13 tra esperti e addetti ai lavori di spiegare il concetto di Big Data a un bambino di cinque anni. Tutte le risposte sono interessanti (e molto divertenti): di solito pensiamo ai Big Data come a un concetto astratto, mentre il loro impatto qui è chiarissimo. Proviamo allora a immaginare anche noi la quattordicesima spiegazione dei Big Data a un bambino di cinque anni.

È settembre e sei appena tornato dalle vacanze. Vuoi giocare un po’ e cerchi il tuo gioco preferito. Guardi dappertutto, ma non riesci a trovarlo. Ti viene in mente che l’hai portato con te in vacanza e che forse l’hai dimenticato da qualche parte. Hai passato qualche giorno all’estero con mamma e papà, cambiando diversi alberghi nel tragitto. Poi sei stato un po’ al mare a casa dei nonni, quindi sei andato in montagna nella casa degli zii. E’ un gioco tecnologico, a cui tieni molto, quindi sei sicuro di non averlo portato in spiaggia o per strada con te… Puoi averlo lasciato in camera in uno degli alberghi, oppure nella casa dei nonni o ancora a casa degli zii.
Ti rivolgi subito a mamma e papà, chiedendo il loro aiuto. In questo momento vorresti giocarci subito, ma la cosa più importante è almeno sapere dov’è – la sua posizione. Mamma e papà hanno le ricevute degli alberghi e potrebbero contattarli, ma ci vorrebbe molto tempo – il dato è “tuo”, ma non abbiamo accesso e ci dobbiamo rivolgere a una seconda parte. D’altra parte, se l’albergo ci aiuta, almeno possiamo limitare la ricerca alla camera dove hai dormito, dato che ne sappiamo il numero – si tratta di dati strutturati.
E’ più semplice cominciare dai parenti e quindi mamma e papà chiamano i nonni e gli zii. Il giocattolo potrebbe essere in una delle due case, in tutte le stanze, in balcone o sotto il portico. I nonni e gli zii non lo ricordano, quindi si devono basare sulla tua descrizione – hai fornito dati di prime parti per semplificare la normalizzazione di dati non strutturati. Ma gli zii non sono più nella casa in montagna, sono tornati in città, quindi non possono darti questa informazione (a cui hai accesso tramite una terza parte) prima di due settimane, quando torneranno in montagna – abbiamo un problema di velocità sull’accesso al dato. Inoltre il tuo cuginetto più piccolo, con cui ci hai giocato mentre eri nella casa degli zii, potrebbe trovarlo prima di te, anche sulla base della tua descrizione, e cominciare a giocarci per primo, con il rischio di romperlo – nel caso sarebbe uno dei nostri competitor.
I nonni, invece, si trovano ancora nella casa al mare e si mettono alla ricerca del giocattolo. Ci vuole un intero pomeriggio, perché non ne ricordano esattamente la forma e non possono limitare la fonte alla camera dove dormivi. Per fortuna, l’avevi lasciato proprio dai nonni – hai avuto finalmente accesso al dato, dopo più o meno una giornata. Con mamma e papà il prossimo fine settimana andrai a trovarli e potrai riprendere possesso del tuo gioco – ma dovrai aspettare altri tre giorni per giocarci.

Questa storia introduce due temi centrali per lo scenario Big Data: la proprietà e l’accesso.

I Big Data e i dati di prime, seconde e terze parti

In scenari di Big Data viene utilizzata ancora la distinzione tradizionale per quanto riguarda i dati (prime, seconde e terze parti), che si basa su due fattori principali: la proprietà e l’accesso. L’Enterprise ha esclusiva proprietà dei dati di prime parti, a cui può sempre accedere gratuitamente. Ha mutuo possesso con un Partner dei dati (o di un subset) di seconde parti a cui può accedere gratuitamente (attraverso il Partner stesso), mentre non ha possesso dei dati di terze parti, che può utilizzare a pagamento, secondo i termini di un servizio.

Partiamo dalla categoria forse più importante, i dati di prime parti. Si tratta dei dati dei clienti (CRM), delle vendite, o dei dati relativi al sito Web aziendale o altre properties online aziendali. La diffusione delle tecnologie in Software-as-a-service (SaaS), sia in ambito CRM, sia in ambito di Digital Analytics, introduce nuove complessità. I dati, che rimangono di proprietà dell’Enterprise, non sono più salvati all’interno dell’azienda stessa, ma sono condivisi con il vendor tecnologico, che ne regola anche i livelli di accesso in funzione del livello di servizio. Quindi, consideriamo in questo caso dati di prime parti anche dati che sono in qualche modo di seconde parti, perché condivisi con un Partner (il vendor tecnologico, appunto).

La specificità dei dati di seconde parti è la proprietà, che non è dell’Enterprise, ma del Partner, che ne garantisce la condivisione in funzione del livello di servizio. Questi sono tipici della transizione al digitale e alla diffusione dei Social Network. Oggi questi dati vanno a incrociarsi con quelli dei clienti e del supporto (di prime parti) nel momento in cui le Enterprise decidono di avere una presenza stabile e gratuita sui social network. I dati, in questo caso, rimangono di proprietà del vendor, che è anche proprietario della piattaforma. L’accesso ai dati può rimanere gratuito, ma non è completo e non è di solito possibile condividerli tra diverse piattaforme. Nel momento in cui l’azienda decidesse di interrompere il servizio, non è garantito il trasferimento dei dati raccolti, che possono rimanere in possesso del proprietario della piattaforma.

L’ascesa dei social network rappresenta anche un altro tassello nella progressiva fusione dei dati di prime parti con i dati di seconde parti: attraverso le piattaforme social, le aziende gestiscono per esempio servizi di CRM, di supporto tecnico, in generale le relazioni con i clienti. Tutto questo avviene in un ambiente che non è più di proprietà dell’azienda, anche e soprattutto per quanto riguarda la gestione dei dati.

I dati di terze parti sono quelli acquistati (o affittati) dall’Enterprise per scopi specifici. Di solito, il loro acquisto non è esclusivo e, in ambito marketing, può riguardare le caratteristiche socio-demografiche dell’audience, oppure PII (come la email, per esempio nel caso di invii di DEM a pagamento). Di solito, tendiamo a considerare i dati relativi all’advertising come dati di terze parti perché, anche in caso non siano a pagamento, sono parte del servizio di acquisto degli spazi. Il dato rimane in possesso del proprietario del network e l’accesso per l’Enterprise è limitato a quanto definito nel livello di servizio. Nel caso dei media a pagamento, l’utilizzo di specifiche tecnologie permette alle aziende di poter gestire dati di prime, seconde e terze parti attraverso un unico punto di accesso. Il caso della diffusione di tecnologie DMP è un modo di superare le distinzioni e normalizzare i vari tipi di dati.

Sicuramente, il tema dell’accesso ai dati in uno scenario Big Data è più composito rispetto alla visione tradizionale. Il concetto di gratuità del dato ha poco senso e non è più in relazione con il tema della proprietà. Lo stesso tema di proprietà del dato è sfumato e prevede una qualche forma di condivisione, tipica di cloud e social network. Così la differenziazione tra i tipi di dati diventa un continuum da adattare alla situazione specifica dell’Enterprise e al rapporto con vendor e Partner.

Di fronte alle complessità degli scenari Big Data, diventa più difficile per le Enterprise scegliere i modelli di gestione dei dati in linea con i modelli di business e i vincoli imposti da privacy e compliance. A volte si tratta di scelte imposte o subite, per far fronte ai competitor e ai cambiamenti del mercato. Ma la tendente ibridazione dei tipi dei dati deve spingere verso l’introduzione di sistemi di Digital Intelligence in grado di gestire e rendere azionabili tutte le fonti dati, di prime, seconde e terze parti. La recente diffusione di tecnologie di Data Management Platform (DMP) è spiegabile proprio in questo senso. D’altra parte, le tecnologie di Attribution e Modeling permettono invece il controllo e l’analisi imparziale sui media, superando i limiti dei dati di terze parti dell’Advertising.

Conoscere i limiti legati alla proprietà e all’azionabilità dei dati dà alle Enterprise la possibilità di costruire strategicamente una Roadmap, il cui obiettivo non sarà la proprietà di tutti i dati (che oggi è praticamente impossibile), ma piuttosto la disponibilità e la condivisione degli stessi all’interno dell’azienda e verso i propri Partner, in modo da salvaguardare le policy e, allo stesso tempo, essere in grado di agire in funzione dei dati stessi.

Insomma, l’Enterprise (il bambino), grazie al supporto dei vendor di Digital Intelligence e tecnologici (la mamma e il papà), deve essere in grado di accedere in ogni momento (non dopo un giorno) ai dati rilevanti per il business (la posizione del giocattolo), siano essi strutturati (come gli alberghi all’estero) o non strutturati (come le case degli zii e dei nonni), di prime, seconde o terze parti, anticipando i competitor (il cuginetto), di garantirne la corretta distribuzione interna e di renderli azionabili (giocabili) al momento giusto (senza aspettare il prossimo week-end).

“Riesci a scrivere il tuo nome e la tua età? Secondo me sì. Riesci a scrivere il nome di tutti i tuoi compagni di classe? O di tutti i tuoi compagni di scuola? O di tutti quelli della tua città? Tutti quelli della tua nazione? Tutte le persone del mondo? Adesso aggiungi anche la loro età, il loro colore preferito, il loro animale preferito, il programma TV che più piace loro, praticamente tutto quello a cui riesci a pensare… per milioni e milioni di persone. Troppo, vero? Non riesci a farlo, e neanch’io ce la faccio. Ma con i computer riusciamo a farlo e lo chiamiamo «Big Data». I dati sono le cose che abbiamo scritto e, prova a immaginare, per milioni, miliardi, fantastiliardi di persone: sono veramente BIG. E cosa ne facciamo di tutti questi dati? Cerchiamo dei pattern. Per esempio, le persone che realizzano i programmi della televisione possono scoprire che i bambini a cui piace la musica amano anche disegnare, quindi possono fare un nuovo programma sulla musica e l’arte. Oppure gli ospedali potrebbero scoprire che le persone che amano certi cibi stanno male in modo diverso quando sono anziane. Così potremmo aiutare le famiglie e i dottori a curare meglio i nostri nonni.”

Donald Farmer, VP of Product Management, Qlik, tratto da Big Data redefined: 13 ways to explain big data to a five-year-old