Dire, fare, baciare ... lettera - Lo Stregone dei Dati #055
La newsletter dedicata al rapporto tra dati, tecnologia, aziende, persone ... e vita.
“La scrittura è la pittura della voce”.
(Voltaire)
Benvenuto alla newsletter de Lo Stregone dei Dati. Seguimi in questo viaggio alla ricerca del significato della vita digitale. Saranno necessari molti incantesimi per superare le prove disseminate lungo il percorso, ma non temere: quelli che sembrano sortilegi in realtà sono solo l’applicazione delle tecnologie all’universo di dati che ci circonda.
Chiudete gli occhi per favore, che dobbiamo tornare indietro con la fantasia di qualche anno; tipo 5.300 anni fa. Siamo nella città di Uruk (situata nell’attuale Iraq) ed è una bella giornata di primavera. In un angolo di un’abitazione c’è un gruppo di persone affaccendate. Sono burocrati, funzionari, commercianti. Uno di loro ha in mano un martello e uno scalpello con cui si affanna a percuotere una tavola di pietra. Oggi è una data importante: è il giorno in cui l'uomo inventa la scrittura.
Fast forward. È una bella giornata primaverile in una cittadina vicino a Milano, Italia. Il calendario indica il 21 maggio 2024 e sto testando il Chat GPT-4o appena rilasciato nella sua applicazione vocale. In realtà non si tratta solo della voce, questa arcana stregoneria integra praticamente qualsiasi tipo di espressione, voce, testo scritto, video, grafica... In “Chat GPT-4o” la "o" sta per "omni", che significa praticamente tutto.
Ciao nonno!
I nostri progenitori incisero numeri e ideogrammi su tavolette che millenni più tardi ci parlano di inventari, liste della spesa, ricevute, bolle di carico e scarico, note di credito e contratti di prestito di beni come animali, olio, cereali, tessuti … e schiavi - (PRO TIP: tutti questi anni e dobbiamo ancora capire che essere innovativi è diverso dall'essere delle brave persone).
A furia di picchiare con lo scalpello nella pietra, gli Elon e i Mark e i Sam di allora crearono un ponte tra l'orale e lo scritto. Una volta consegnato l’orale allo scritto quest’ultimo poteva essere memorizzato, trasmesso, archiviato. Poteva costituire materiale di analisi, entrare in database e spreadsheet primitivi (altre tavolette), e infine venire consegnato alla vetrina di un museo qualche migliaio di anni più tardi.
Questo processo di fissazione, di formalizzazione, di memorizzazione apriva orizzonti sconfinati. Una tavola di pietra è un database in nuce; e un taccuino di Chatwin è un modo tecnologicamente diverso di costruire un file system multimediale. Certo che una volta trasferito il tutto dai supporti fisici e meccanici a quelli elettronici e digitali, si è aperto un altro gioco.
Il guaio
Il guaio è che la gente continua a parlare, un vizio che non sa smettere. Hai una tastiera sotto le dita e un messaggio da inviare? Spetta un po’ che adesso ti mando un bel vocalone di un minuto e mezzo!
<DISCLAIMER: odio i vocali, li aborro totalmente, sono in grado di rovinarmi la giornata>.
Tant’è. Tra forma scritta e orale le persone tipicamente preferiscono la seconda. Al limite immagini; o video, con una componente sia grafica sia audio. E’ più forte di noi, in un mondo fatto ormai di tastiere, mouse e schermi touch, noi alla fine … preferiamo comunque parlare!
Interfacce e dati
Per come è stata inventata l’informatica invece, il modo preferenziale di trasmettere e memorizzare informazioni, di comunicare con i computer per qualunque esigenza, è il carattere scritto.
Questo diventa immediatamente un problema di interfacce. Già il mouse è stato inventato per potere ovviare al dominio goffo e inefficiente della tastiera; meglio, ma non bene. Un progresso ulteriore sono gli schermi touch, ma si tratta sempre e comunque di modi innaturali per interagire con un sistema. Sarebbe bello invece poter “dire” al sistema quello che vogliamo; parlargli, per così dire.
Tipo assistenti vocali, giusto per capirci (se solo funzionassero).
Sistemi
In questa loro prima fase di maturazione, gli LLM per il loro addestramento fanno riferimento prevalentemente a testi scritti. È quello il loro campo di battaglia, il loro sport preferito. E la maggior parte delle nuove funzioni che rendono possibili si applicano allo scritto.
Ma di nuovo questo crea un gap, in quanto anche sull’Internet sovrabbondano, se non prevalgono addirittura, informazioni confezionate in un altro formato: immagini, video e audio.
Di nuovo, come 5.300 anni fa, occorre inventare un modo di congiungere scritto e orale. Ovviamente qualcosa di più efficace dello scalpello sulla pietra.
La chiave di volta
Entrano in scena i sistemi di Speech to Text (S2T), o ASR (Automatic Speech Recognition), meglio ancora di trascrizione automatica del parlato. Io parlo, loro trascrivono, e di lì in avanti è tutta un’autostrada.
Si tratta di un argomento che finora è rimasto confinato agli specialisti e ad utilizzi verticali. Inoltre, è stato penalizzato da percentuali di efficacia crescenti ma ben lontane dalla perfezione. Il 95% di termini riconosciuti correttamente sembra tanto, in realtà significa una parola sbagliata ogni riga o due, e anche se nessuno rimpiange i tempi in cui si sbobinava a mano, la spesa rischia di essere maggiore della resa.
Ora, al di là delle performance che continuano a crescere, questo ambito finora periferico sta assumendo una centralità da chiave di volta, perché è lo snodo attraverso cui passa il ricongiungimento tra parola parlata e parola scritta.
Questi sistemi permettono di prendere qualunque frase emessa da bocca umana; riconoscerla, decodificarla, memorizzarla; e scatenare su di essa il potere dell’AI che, come detto, si trova a suo agio quando tutto è stato ben decodificato in caratteri assiepati in parole raccolte in frasi.
<DISCLAIMER- Lavoro attualmente proprio nel campo dei sistemi S2T per cui sì, ho una convenienza a sottolinearne l’importanza. Aggiungo però che per vecchia abitudine non dico mai quello che non penso, al limite taccio. Dopo di che, vedete voi>
I prossimi 5.300 anni
Esagero? Sì, esagero. Sono troppi anche i prossimi 5.300 giorni, che fanno 14 anni e spicci.
A me pare evidente che si vada verso un futuro “fluido”. Questa è una parola tanto popolare quanto generica, per cui chiarisco che intendo un futuro in cui i mezzi di interazione tra uomo e macchina diventeranno indipendenti dal medium di trasmissione. Ma come sempre il succo non è tanto nella destinazione finale, quanto nel percorso per arrivarci. Per intenderci, la strada che ha portato alla macchina per stampa è passata per i codici miniati, meraviglia dell’umanità.
In attesa degli implant cerebrali.
E ora … un po’ di musica
Ma ve lo ricordate? Terzo al Festivalbar e secondo al Cantagiro. Può piacere o non piacere, ma il pezzo armonicamente è molto interessante ed è un quasi evergreen.
Se non sai come dire, se non trovi le parole, non ti devi preoccupare: scrivimi, io saprò capire