Lo stregone dei dati #012
La newsletter dedicata al rapporto tra dati, informazioni e tecnologie trasformative. Per gestire l'azienda come una "data & technology company".
Chiamiamo «pulizia» la rimozione di ciò che è indesiderabile, il ristabilimento dell’ordine. «Pulizia» significa ordine.
Zygmunt Bauman
Benvenuto alla newsletter de Lo Stregone dei dati. Seguimi in questo viaggio alla ricerca del tesoro nascosto della competitività di impresa. Saranno necessari molti incantesimi per superare le prove disseminate lungo il percorso, ma non temere: quelli che sembrano sortilegi in realtà sono il risultato dell’applicazione delle tecnologie digitali all’universo di dati che ci circonda.
Il mondo, in fondo, è un’informazione, e questa è la chiave per viverci e prosperare.
Abbonati, condividi e se vuoi contattami a alessandro.cederle@thedatawarlock.com.
Pulizie di primavera
“Dalla pulizia della casa si conosce la massaia”; così recita un proverbio. Similmente, dalla pulizia dei dati discende la bontà del loro utilizzo, se e quanto sarà possibile estrarne valore.
Come ben sanno gli esperti, la pulizia dei dati è la parte del processo di data analytics che richiede più tempo, sforzo e risorse, tanto da meritare figure professionali dedicate e il solito florilegio di nomi identificativi (data preprocessing, data wrangling, exploratory data analysis, data preparation, etc.).
La “pulizia” è da sempre presente nella storia dell’uomo, non solo come esigenza igienica ma come valore filosofico, antropologico, religioso e rituale. I riti di passaggio sono sempre organizzati attorno a processi di purificazione. Le varie affiliazioni e conversioni comprendono sempre un momento di pulizia dalle scorie del passato. Il battesimo è un lavacro, qualche forma di abluzione precede sempre un rito importante. E la mamma ci ha insegnato che quando si torna a casa per la cena dopo avere giocato in cortile ci si lava le mani. Lo stesso, insiste la mamma, va fatto dopo essere stati in bagno per assolvere infime funzioni corporali; anche se molti lo hanno dimenticato, o fingono di ignorarlo.
Insomma, il mondo è sporco e qualunque progresso o avanzamento nel campo dell’universo umano più profondo richiede una prima fase di pulizia.
Anche il mondo dei dati è sporco. O meglio, lo è prima delle citate operazioni di data wrangling etc. E’ ora delle pulizie di primavera!
I dati non nascono in una forma adatta per essere trattati, per cui richiedono di essere massaggiati, manipolati, trasformati in modo da assumere una forma che consente di trattarli in modo efficiente.
Questa sporcizia dei dati a volte è senza colpa, il dato nasce così e va preso come viene. Spesso invece la sporcizia è colpevole perché qualcuno ha generato o trattato o modificato i dati senza tenere conto della loro potenziale utilizzabilità.
All’inizio della pandemia c’era fame di dati e informazioni per potere comprendere il fenomeno e se possibile elaborare delle previsioni. Purtroppo però i dati pubblicati dalle autorità non erano “machine readable”. Venivano presentati all’interno di una pagina web, mischiati all’interno di un discorso colloquiale, rappresentati in formati diversi, non numerici, con uso disinvolto delle virgole piuttosto che dei punti, in tabelle non leggibili in modo automatico, in modalità diverse ad ogni aggiornamento. Di conseguenza chi voleva recuperarli e utilizzarli per l’elaborazione di analisi non poteva affidarsi a procedure automatizzate; doveva piuttosto sottomettersi a lunghe e laboriose elaborazioni manuali, sudando sette camicie, che poi ovviamente andavano ripulite anch’esse.
Cosa vuol dire “fare pulizia”?
Vorrei presentare un paio di semplici esempi, presi dall’esperienza aziendale diretta, di un modo sbagliato di generare e/o trasmettere i dati, suggerendo un modo più corretto che tutti dovrebbero adottare per aumentare la nostra capacità collettiva di generare valore dai dati che ci scambiamo.
A volte le soluzioni sono semplici e consistono semplicemente in una chiara comprensione del problema associata a una certa disciplina organizzativa.
La stima e le stime
Un collega che stimo molto mi invia alcuni valori che mi sono necessari per elaborare delle stime di fatturato. Leggendo l’email è chiaro che lui a sua volta li ha ricavati da un formato strutturato (un foglio Excel, o comunque un’elaborazione informatica), ma la tentazione del copia incolla selvaggio incombe sempre e questo è lo screenshot di quello che mi arriva, in caratteri alfanumerici all’interno del messaggio di posta elettronica.
Le operazioni necessarie per rendere trattabile i dati sono dunque le seguenti:
Copia incolla della sezione di testo in un foglio elettronico
Verifica dell’efficacia del foglio elettronico nel riconoscere ogni informazione (Area, Data di inizio, Data di Fine, Pezzi venduti), organizzando ciascuna serie di dati in una distinta colonna.
Sono fortunato per quanto riguarda Area e Pezzi venduti, mentre la data di inizio e di fine vengono invece mischiata in un calderone unico, un’unica colonna; mi tocca ridigitarle a manina su due colonne distinte. Accidenti al collega che stimo un po’ di meno. Per fortuna sono solo una quindicina di osservazioni, fossero state 150? o 1.500? o 15.000? Certo mi sarei inventato qualcosa, chiedendo al computer di riconosce le | come segno di separazione tra i campi, chiedendogli poi di rimuovere gli spazi e l’annotazione delle ore:minuti, inutili alla fine dell’analisi, e così via. Si può fare tutto, ma si tratta di tempo e energie poco produtive.Trasformazione del formato dei campi. Per l’Area va bene alfanumerico, le date devono essere trasformate, appunto, in Pezzi venduti formato numerico
Impostazione di una semplice formula: pezzi venduti diviso il numero dei giorni di osservazione (data di fine meno data di inizio) per 365 = stima dei valori annuali. Bingo, ho raggiunto il valore di riferimento.
Da qui posso fare tutte le statistiche e elaborazioni del mondo.
Contando, e ragionando, i tre quinti del lavoro sono andati nella pulizia preventiva. Se il dato fosse stato memorizzato ab ovo in un formato strutturato, cioè se il collega me li avesse semplicemente trasmessi in un formato strutturato, scv comma delimited, per dire, la storia sarebbe stata diversa e avrei dovuto cercare un altro esempio per questo numero de Lo Stregone.
Il colore dei dati
“Ale, ti ho preparato i dati delle vendite del prodotto X, ti mando il foglio Excel. Ho evidenziato in giallo quelle in bundle con l’abbonamento base, in rosso quelle stand alone, in verde quelle a clienti nuovi”.
Grunt.
Due problemi:
Fino a poco tempo fa i fogli elettronici non permettevano di selezionare una riga in base al colore. Ora si sono arresi e hanno introdotto questa possibilità. Ma se invece di un foglio elettronico voglio usare un sistema di elaborazione più complesso, tipo un database management system, o Knime? Se voglio collegare quell’informazione a una fonte di dati esterni? Se voglio raggrupparla trasformandola in un’etichetta parlante? Si può fare di tutto, ma tutto costa, tempo, fatica, energia e a volta anche soldi. Perché invece non inserire l’informazione in formato codificato, dedicando la sua bella colonnina a parte?
Ogni unità di memoria (ogni campo, o ogni colonna) deve contenere un solo tipo di informazione. L’informazione “è stato venduto da solo o in bundle” è totalmente altra cosa da “è stato venduto a clienti nuovi o già in portafoglio”. I due tipi di informazione richiedono campi (o colonne) diversi. Il dato deve essere tracciato in modo diverso, se uso il codice “colore” per distinguere informazioni di tipo diverso, questo non mi consente poi di processarle in modo efficace.
Cominciamo da tre.
Potrei continuare a lungo.
Il focus della questione è che applicare un approccio data driven non vuol dire, o non vuol dire tanto, o non vuol dire solo diventare esperti di equilibri di Nash Bayesiani o conquistarsi il diploma Ninja Black Belt sui database non relazionali .
Significa prima di tutto abituarsi a collezionare e memorizzare dati in modo ordinato, “database-like”, costruendo istintivamente strutture di dati che sia possibile esplorare e analizzare senza sforzo, evitando costose e faticose operazioni di pulizia.
Anche i fogli elettronici in fondo sono data science, per cui il punto di partenza è abituarsi a pensare in termini di righe e colonne, ogni riga un oggetto di osservazione, ogni colonna un’informazione su quell’oggetto. Con un punto di partenza di questo tipo, the sky is the limit.
Iniziamo adesso, oggi, a lavorare in questo modo. Iniziamo dalla lista dei clienti da chiamare settimana prossima, da quella della spesa, dall’agenda degli appuntamenti.
E ora un po’ di musica
Nessuno aveva e nessuno ha più avuto la stessa gentilezza nel toccare le corde della chitarra disegnando arpeggi complessi, lo stesso garbo nel ritmare in modo trasparente groove solidamente intrecciati, la stessa flemma nel sottolineare le sincopi in modo distintivo ma indifferente, la stessa voce carezzevole a raccontare storie tese con la serenità e la saggezza di una vita vissuta fino alla feccia.
Lo stile più pulito del mondo a raccontare storie sporche attraversando una complessità fatta di cenni e accenti.