PaLM: un nuovo modello di linguaggio di Google dalle prestazioni rivoluzionarie

Google ha recentemente presentato PaLM, un modello di linguaggio basato sull'intelligenza artificiale che ha fatto registrare prestazioni sbalorditive su diversi task. E Minerva, un altro modello basato su PaLM, che è in grado di risolvere problemi scientifici spiegandone il procedimento.

PaLM: un nuovo modello di linguaggio di Google dalle prestazioni rivoluzionarie
PaLM: un nuovo modello di linguaggio di Google dalle prestazioni rivoluzionarie

Negli ultimi anni, le grandi reti neurali addestrate per la comprensione e la generazione del linguaggio hanno ottenuto risultati impressionanti in un'ampia gamma di attività.

GPT-3 ha mostrato per la prima volta che i modelli linguistici di grandi dimensioni (LLM - Large Language Model) possono essere utilizzati attraverso il "few-shot learning" (ovvero attraverso dei brief composti da pochi esempi per stimolare l'algoritmo a completare il contenuto) con la possibilità di ottenere risultati sbalorditivi anche senza utilizzare dati specifici o senza aggiornare i parametri del modello.

Modelli più recenti, come GLaM , LaMDA , Gopher e Megatron-Turing NLG, hanno ottenuto risultati migliori su molti task, attraverso un addestramento su set di dati più grandi da diverse fonti. Tuttavia rimane ancora molta strada da percorrere per per comprendere le potenzialità del "few-shot learning" mentre i modelli incrementano le loro dimensioni.

Pathways e PaLM

L'anno scorso Google Research ha annunciato l'idea di Pathways, un modello unico che potrebbe agire su più domini ed attività rimanendo altamente efficiente. In altre parole, un modello più "generale".
Un'importante passo verso la realizzazione di tale visione è stata lo sviluppo del nuovo Pathways System, un sistema in grado di ottimizzare il calcolo distribuito.

Nel paper dal titolo "PaLM: Scaling Language Modeling with Pathways", Google presenta PaLM: Pathways Language Model, un modello basato sui transformer che conta 540 miliardi di parametri ed è stato addestrato attraverso Pathways System, che ha consentito un livello di parallelizzazione e di efficienza mai ottenuti in precedenza.

PaLM è stato messo alla prova su centinaia di task di comprensione e generazione del linguaggio, ed è riuscito ad ottenere prestazioni all'avanguardia nella maggior parte delle attività, con margini significativi in ​​molti casi.

PaLM: più aumentano le dimensioni del modello e più migliorano le performance e i task
PaLM: più aumentano le dimensioni del modello e più migliorano le performance e i task

L'addestramento di un modello di linguaggio con Pathways

Per PaLM è stato usato il più grande sistema basato su TPU dedicato al training, il quale è stato parallelizzato su due Pod Cloud TPU v4.

Una TPU (Tensor Processing Unit) è un acceleratore AI di Google per applicazioni specifiche nel campo delle reti neurali. Per comprendere meglio cosa significa possiamo pensare alla più nota CPU del nostro PC, ma estremamente più potente e dedicata al machine learning. I pod Cloud TPU sono "supercomputer" realizzati con centinaia di TPU.

Tutto questo significa che le prestazioni in fase di addestramento superano ogni modello precedente (anche i molto noti nominati all'inizio di questo post).

PaLM è stato addestrato utilizzando una combinazione di dati in inglese ed altre lingue, che includono pagine web, libri, Wikipedia, conversazioni e codice presente su GitHub di alta qualità.

Capacità rivoluzionarie su diversi task

Il modello mostra capacità rivoluzionarie su numerose attività complesse. Di seguito vengono evidenziati alcuni esempi relativi alla comprensione e alla generazione del linguaggio, al ragionamento e ad attività relative al codice di programmazione.

Comprensione e generazione del linguaggio naturale

PaLM è stato valutato su 29 task di elaborazione del linguaggio naturale in inglese (NLP). Ha superato le prestazioni dei precedenti modelli di grandi dimensioni, come GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla e LaMDA, in 28 su 29 attività che comprendono la risposta a domande, cloze e completamento di frasi, task in stile Winograd, attività di comprensione della lettura, task di ragionamento, attività di SuperGLUE e attività di inferenza del linguaggio naturale.

Miglioramento delle prestazioni di PaLM rispetto ai risultati SOTA precedenti su 29 attività di NLP in inglese
Miglioramento delle prestazioni di PaLM rispetto ai risultati SOTA precedenti su 29 attività di NLP in inglese

Oltre alle attività di NLP in inglese, PaLM ha mostrato anche ottime prestazioni sui benchmark in diverse lingue, inclusa la traduzione, anche se solo il 22% del corpus di formazione non è inglese.

Sono state esaminate anche le capacità emergenti e future di PaLM su Beyond the Imitation Game Benchmark (BIG-bench), una raccolta rilasciata recentemente con oltre 150 nuove attività di modellazione del linguaggio, e il modello ha raggiunto prestazioni elevatissime.

PaLM ha avuto prestazioni migliori rispetto alla media delle persone alle quali è stato chiesto di risolvere gli stessi compiti.
Prestazioni di PaLM rispetto ad altri modelli
Prestazioni di PaLM rispetto ad altri modelli

PaLM dimostra impressionanti capacità di comprensione e generazione del linguaggio naturale su diverse attività BIG-bench. Ad esempio, il modello può distinguere causa ed effetto, comprendere combinazioni concettuali in contesti appropriati e persino indovinare il film da un'emoji.

Alcuni esempi di task n cui PaLM dimostra una comprensione sbalorditiva
Alcuni esempi di task n cui PaLM dimostra una comprensione sbalorditiva

Ragionamento

PaLM mostra capacità rivoluzionarie anche su attività di ragionamento che richiedono aritmetica in più fasi o ragionamento basato sul buon senso.

Un esempio delle prestazioni di PaLM su attività di ragionamento
Un esempio delle prestazioni di PaLM su attività di ragionamento

Con un prompt a 8 esempi (8-shot prompting), PaLM risolve il 58% dei problemi di GSM8K, un benchmark con migliaia di impegnative domande di matematica (per la scuola elementare), superando il punteggio massimo precedente del 55% ottenuto da GPT-3 con un set di formazione di 7.500 problemi.

Questo nuovo punteggio è particolarmente interessante, poiché si avvicina alla media del 60% dei problemi risolti dai bambini di età compresa tra 9 e 12 anni, che sono il pubblico di destinazione per il set di domande.

Sorprendentemente, PaLM può persino generare spiegazioni esplicite per scenari che richiedono una complessa combinazione di inferenza logica a più fasi, conoscenza del mondo e profonda comprensione del linguaggio. Ad esempio, può fornire spiegazioni di alta qualità per nuove barzellette che non si trovano online.

PaLM spiega una barzelletta
PaLM spiega una barzelletta

Generazione di codice

Possiamo trovare moltissimi esempi di generazione di codice operati da modelli di AI a partire da un brief in linguaggio naturale. PaLM ha prestazioni elevate in questa attività  anche se ha solo il 5% di codice nel set di dati di pre-formazione.

Questo risultato rafforza la tesi secondo cui i modelli più grandi possono essere più efficienti in termini di campioni rispetto ai modelli più piccoli perché trasferiscono l'apprendimento sia da altri linguaggi di programmazione che dai dati del linguaggio naturale in modo più efficace.
Esempi di generazione di codice da parte di PaLM
Esempi di generazione di codice da parte di PaLM

PaLM apre la strada a modelli ancora più capaci, combinando elevate performance in ambito di training con nuove architetture.. e questo ci avvicina alla visione di Pathways:

Enable a single AI system to generalize across thousands or millions of tasks, to understand different types of data, and to do so with remarkable efficiency.

Minerva

Google ha presentato anche Minerva, un modello di linguaggio basato su PaLM che risolve problemi matematici e scientifici spiegando il procedimento attraverso formule e testo.

Un esempio di come Minerva risolve un problema di matematica
Un esempio di come Minerva risolve un problema di matematica

Il sistema ha avuto un addestramento aggiuntivo su 118 GB di pubblicazioni scientifiche.

Minerva: Solving Quantitative Reasoning Problems with Language Models
Posted by Ethan Dyer and Guy Gur-Ari, Research Scientists, Google Research, Blueshift Team Language models have demonstrated remarkable p...

Per approfondire

Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance
Posted by Sharan Narang and Aakanksha Chowdhery, Software Engineers, Google Research In recent years, large neural networks trained for l...
GPT-3 per la SEO: potenzialità, limiti, futuro. Il mio WMF 2022
Quest’anno al WMF, in sala SEO, ho parlato di GPT-3 e di generazione di contenuti attraverso l’intelligenza artificiale. Come funziona? Cosa rappresenta? Qual è il futuro del lavoro aumentati dagli algoritmi? Capire la natura del mezzo, genera il vero vantaggio competitivo.
GPT-3: dialoghi con l’intelligenza artificiale di OpenAI
Cos’è GPT-3 di OpenAI? Si tratta di un’intelligenza artificiale molto evoluta. Dopo un lungo periodo d’attesa sono stato abilitato all’utilizzo del programma beta delle API. Come funziona? Lo vediamo insieme!