Gli Small Data saranno il futuro della Data Science?

Secondo Andrew Ng, in pioniere dell'AI, il prossimo decennio sarà sotto il segno dell'intelligenza artificiale incentrata sui dati. Questo significa che potremo addestrare gli algoritmi senza aver bisogno di milioni di esempi "rumorosi", perché ne basteranno 50 di ben realizzati. Sarà così?

Gli Small Data saranno il futuro della Data Science?
Gli Small Data saranno il futuro della Data Science?

Negli ultimi anni, abbiamo sentito parlare spesso di "Big Data".
Con la capacità di archiviazione e la potenza di calcolo sempre più elevate ed economiche, infatti, diventa sempre più semplice raccogliere ed elaborare enormi quantità di dati per generare previsioni ed arricchire le informazioni.

Alimentati dai successi dei big della tecnologia come Google, Amazon e Facebook, sono stati compiuti sostanziali progressi nell'analisi dei dati su larga scala, con il processo decisionale data-driven che è diventato una priorità per molti brand.

Abbiamo assistito a gigantesche reti neurali con miliardi di parametri, infiniti feed di dati elaborati in tempo reale.. e petabyte di informazioni di qualsiasi genere archiviate in enormi server farm. Le evoluzioni sono state abbondanti ed esaltanti.
Di certo, tali tendenze legate ai big data persisteranno. Infatti..

finché ci saranno dati da raccogliere, troveremo nuovi modi per utilizzarli!

L'elaborazione del linguaggio naturale (NLP), ad esempio, è maturata, ma per l'analisi video rimane una parentesi aperta, in attesa ancora di progressi tecnologici per stimolare gli sviluppi.

Il mondo al di fuori della Silicon Valley

Al di fuori della Silicon Valley, tuttavia, c'è un mondo che probabilmente tende ad essere trascurato. Un mondo fatto di milioni di aziende che non sono delle Big Tech, ma che comunque hanno bisogno di soluzioni innovative partendo dai loro piccoli set di dati. Alcuni esempi concreti potrebbero essere relativi alla previsione dei costi di manutenzione di macchinari, l'identificazione di patologie a partire da immagini di radiografie, o il rilevamento di anomalie sulle linee di produzione.
Si tratta di task importanti, ma che spesso possono contare su pochi dati. Per fare un altro esempio, pensiamo all'individuazione di malattie rare attraverso gli algoritmi. Una soluzione deriva di certo dalla creazione di dati artificiali sfruttando, ad esempio le reti GAN, però, probabilmente, è necessario un punto di vista diverso.

Da Big Data a Small Data: un cambiamento di prospettiva
Da Big Data a Small Data: un cambiamento di prospettiva

Un cambio di paradigma

Andrew Ng, pioniere dell'Intelligenza Artificiale e co-founder di Coursera  (oltre ad aver fondato Google Brain, insegnato a Stanford) afferma che probabilmente..

non avremo bisogno di milioni di campioni "sporchi" se potremo averne 50 di ben realizzati.

Considerando il suo background, di certo gode di una certa credibilità, e quando identifica dei nuovi trend relativamente alla data science, è consigliabile fare qualche riflessione.

Andrew sostiene che, al fine di sbloccare il pieno potenziale dell'intelligenza artificiale, sia tempo di iniziare a concentrarsi sulla qualità dei dati.

Negli ultimi anni, l'attenzione è stata incentrata sul modello, con un'enfasi sulla progettazione, la messa a punto e il miglioramento di algoritmi adatti a vari task  (es. text mining, riconoscimento di immagini, ecc.).

La ricerca incentrata sul modello è stata molto fruttuosa, e ha dato vita ad architetture di qualità. Tuttavia, probabilmente ci stiamo avvicinando ad una sorta di saturazione. Per una vera evoluzione, il cambio di paradigma consiste nel concentrarsi sulla qualità dei dati di input del modello.

  • Nell'AI incentrata sul modello, si presume che i dati siano un set definito, e l'obiettivo è quello di migliorare il modello, cercando di ottenere le migliori prestazioni.
  • Nell'AI incentrata sui dati, il principio è l'opposto: i modelli vengono mantenuti più o meno fissi, e l'obiettivo è quello di migliorare la qualità dei dati, mirando a una comprensione approfondita di piccoli set di dati.
L'intelligenza artificiale incentrata sui dati
L'intelligenza artificiale incentrata sui dati

L'intelligenza artificiale incentrata sui dati

Nonostante l'incredibile quantità di dati prodotti ogni giorno, la qualità potrebbe essere piuttosto scarsa (chiunque si occupi di data science potrebbe confermarlo). Informazioni mancanti, errori di immissione o di misurazione, duplicazioni... tutto ciò rende difficile il training di un modello.

Set di dati sufficientemente grandi possono superare il problema della scarsa qualità, tuttavia un set di dati piccolo e di scarsa qualità rappresenta la ricetta per un disastro.

Inoltre, siamo spesso interessati solo a sottoinsiemi di dati, non a tutti quelli a disposizione. Dieci milioni di radiografie di polmoni sani o un numero elevato di transazioni non fraudolente sono di scarso aiuto per individuare anomalie nei rispettivi casi d'uso.

Riconoscere l'importanza della qualità dei dati è tutt'altro che nuovo: l'adagio "garbage-in = garbage-out" è ben noto, soprattutto tra gli informatici. Infatti, nell'AI incentrata sul modello, può non essere chiaro fin dall'inizio quali proprietà dei dati influiscono maggiormente sulla qualità del modello, causando cicli di tentativi ed errori, ed una conseguente bassa efficienza.
Al contrario, l'AI incentrata sui dati diffonde un approccio sistematico e metodico per migliorare la qualità delle informazioni, rivolto ai segmenti che hanno maggior effetto sulle prestazioni.

Identificando le caratteristiche salienti, eliminando il "rumore", analizzando gli errori ed etichettando in modo coerente l'efficacia del training può essere drasticamente migliorata.

Verso gli Small Data.. ma come?

L'idea di migliorare sistematicamente la qualità dei dati ha senso, ma in concreto quali sviluppi possiamo aspettarci? È fondamentale passare a "small and smart data", concentrandosi su dati di alta qualità ed esempi spiegabili. Tuttavia, è difficile ottimizzare grandi set di dati: un'analisi umana approfondita richiede set piccoli e completi.

L'IA incentrata sui dati richiederà un cambiamento sostanziale nella cultura.

Invece di "giocherellare" con livelli e iperparametri, si dovrà dedicare molto più tempo all'etichettatura e allo slicing di set di dati, anche se si tratta di operazioni difficili da amare. Proprio per questo motivo si dovrà ragionare per creare sistemi di rilevazione delle incongruenza per "pulire i dati", oppure sfruttare la conoscenza del dominio per analizzare le informazioni con precisione ed ottenere il massimo dai dati.

70% of organizations will shift their focus from big to small and wide data , providing more context for analytics and making artificial intelligence (AI) less data hungry, By 2025.
- Virtual Gartner Data & Analytics Summit EMEA, May 18 20 -

Conclusioni

L'interpretazione umana è centrale in questo nuovo paradigma, spingendo a spostarsi verso set di dati piccoli e spiegabili, invece di considerare milioni di esempi "rumorosi".

Andrew Ng afferma che 50 esempi eccellenti potrebbero addestrare bene un algoritmo ML. Ovviamente, l'effort progettuale di questi esempi sarà sostanziale: ognuno di essi darà un contributo significativo.

Chiaramente, i dati necessari potrebbero non essere sempre disponibili da subito. Per aumentare i dati esistenti una direzione promettente è quella dell'AI generativa, che consente di costruire dati sintetici indistinguibili dalla realtà. Sulla base di esempi e conoscenze di dominio, possiamo costruire esempi artificiali con le proprietà di cui abbiamo bisogno, ad esempio, l'immagine di un raro tipo di difetto o un particolare trend del mercato azionario.

Un passaggio agli Small Data avrebbe un impatto considerevole sulla Data Science, perché:

  • apre le porte a molti problemi che non hanno enormi set di dati associati;
  • consente di generare set di dati artificiali di alta qualità;
  • si allinea con il movimento dell'AI "spiegabile" che sta diventando un concetto sempre più importante.
Se creiamo con cura input rappresentativi esaminando esempi, piccoli set possono essere sufficienti per addestrare modelli di alta qualità. Per raggiungere questo obiettivo, sia l'esperienza umana che i metodi di miglioramento sistematico sono vitali per realizzare progressi generalizzabili.

Per approfondire

Is “Small Data” The Next Big Thing In Data Science?
The next decade will revolve around Data-Centric Artificial Intelligence, predicts AI pioneer Andrew Ng. We may not need million of noisy…
Andrew Ng Launches A Campaign For Data-Centric AI
AI luminary Andrew Ng wants AI practitioners to shift their focus from model development to data quality.
Cosa sono le reti GAN? L’intelligenza artificiale che gioca a guardie e ladri per creare e predire
Le reti GAN possono generare contenuti (immagini, video, musica) in modo incredibilmente realistico, e per farlo usano un principio che trovo affascinante e sbalorditivo.. in un certo senso competono e si sfidano giocano a guardie e ladri. Scopriamo come funzionano con esempi pratici.