Wu Dao 2.0: l'AI cinese con una conoscenza 10 volte superiore a GPT-3

Wu Dao 2.0 è un'intelligenza artificiale (AI) che è stata istruita con una quantità di dati di 10 volte superiore a GPT-3. Le prestazioni sono incredibili, tanto che si inizia a ragionare sull'AGI (Artificial General Intelligence). Scopriamola insieme!

Wu Dao 2.0: l'AI cinese più potente di GPT-3
Wu Dao 2.0: l'AI cinese più potente di GPT-3

Stiamo vivendo un periodo storico incredibile in ambito di Intelligenza Artificiale. A partire dagli incredibili risultati raggiunti da OperAI con GPT-3, per arrivare alle più recenti LaMDA e MUM, presentate sul palco dell'evento Google I/O, che rivoluzioneranno rispettivamente il mondo degli assistenti virtuali e della ricerca.

Durante la conferenza dell'Accademia di Intelligenza Artificiale di Pechino (BAAI) è stata presentata Wu Dao 2.0: la più grande rete neurale mai creata e probabilmente la più potente. Le sue potenzialità e i suoi limiti devono ancora essere pienamente svelati, ma le aspettative sono altissime.


Wu Dao 2.0: le differenze rispetto a GPT-3

Parametri e dati

Wu Dao, che significa "illuminazione", è un modello linguistico simile a GPT-3. Jack Clark (OpenAI) definisce la tendenza alla copia di GPT-3 "model diffusion", però, tra tutte le copie, Wu Dao 2.0 è la più potente con 1,75 trilioni di parametri (di 10 volte superiore a GPT-3).
Sembra che Wu Dao 2.0 sia stata addestrata con 4,9 TB di dati (testo e immagini di alta qualità), il che rende "pallido" il set di dati di allenamento di GPT-3 (570 GB).
Tuttavia, vale la pena notare che i ricercatori di OpenAI hanno filtrato 45 TB di dati per estrarre quei 570 GB.

I dati della formazione sono suddivisi in:

  • 1,2 TB di dati testuali in cinese;
  • 2,5 TB dati grafici cinesi;
  • 1,2 TB dati di testo in inglese.

Multimodalità

Wu Dao 2.0 è multimodale. Può apprendere da testo e immagini e affrontare attività che includono entrambi i tipi di dati (cosa che GPT-3 non può fare).
Questa è la direzione verso la quale si sta andando negli ultimi anni.
Si prevede che la visione artificiale e l'elaborazione del linguaggio naturale, tradizionalmente i due grandi "rami" del deep learning, finiranno per essere combinati in ogni sistema di intelligenza artificiale in futuro. Il mondo è multimodale, gli esseri umani sono multisensoriali.. è ragionevole creare AI che imitano questa funzione.

L'addestramento

Wu Dao 2.0 è stata addestrata con FastMoE, un sistema simile al Mixture of Experts (MoE) di Google.
FastMoE, al contrario di MoE di Google, è open-source e non richiede hardware specifico, il che lo rende più "democratico". Ha permesso ai ricercatori di risolvere i "colli di bottiglia" legati al training che impediscono a modelli come GPT-3 di raggiungere il traguardo del trilione di parametri.

Le capacità di Wu Dao 2.0

Diverse testate importanti hanno parlato con precisione delle capacità di questa intelligenza artificiale, come VentureBeat e Engadget.

AI Weekly: China’s massive multimodal model highlights AI research gap
China’s massive new AI model, which can ostensibly understand multiple modes of media, highlights the growing AI research gap between nations.
China’s gigantic multi-modal AI is no one-trick pony | Engadget
Researchers from the Beijing Academy of Artificial Intelligence announced on Tuesday the release of Wu Dao, a mammoth AI seemingly capable of doing everything GPT-3 can do, and more..
Wu Dao 2.0’s has nothing to envy GPT-3 or any other existing AI model. Its multitasking abilities and multimodal nature grant it the title of most versatile AI. These results suggest multi-AIs will dominate the future.

Uno studente virtuale

Hua Zhibing, basata su Wu Dao 2.0, è la prima studentessa virtuale cinese. Può apprendere continuamente, comporre poesie, disegnare immagini e, in futuro, imparerà a sviluppare. A differenza di GPT-3, Wu Dao 2.0 può apprendere diversi compiti nel tempo, senza dimenticare ciò che ha appreso in precedenza (contesto). Questa caratteristica sembra avvicinare ulteriormente l'IA alla memoria umana e ai meccanismi di apprendimento.

Hua Zhibing, una studentessa virtuale cinese basata su Wu Dao 2.0
Hua Zhibing, una studentessa virtuale cinese basata su Wu Dao 2.0

Tang Jie, il principale ricercatore, è arrivato al punto di affermare quanto segue.

Hua Zhibing has some ability in reasoning and emotional interaction.

Tuttavia, è meglio essere prudenti prima di arrivare a determinate conclusioni.


Woo Dao 2.0 e l'AGI (Artificial General Intelligence)

Alcuni dei membri più importanti di BAAI hanno espresso il loro pensiero sul ruolo di Wu Dao 2.0 sulla strada verso l'AGI.

“The way to artificial general intelligence is big models and big computer. […] What we are building is a power plant for the future of AI. With mega data, mega computing power, and mega models, we can transform data to fuel the AI applications of the future.”

- Dr. Zhang Hongjiang, chairman of BAAI

“These sophisticated models, trained on gigantic data sets, only require a small amount of new data when used for a specific feature because they can transfer knowledge already learned into new tasks, just like human beings. […] Large-scale pre-trained models are one of today’s best shortcuts to artificial general intelligence.”

- Blake Yan, AI researcher

“Wu Dao 2.0 aims to enable machines to think like humans and achieve cognitive abilities beyond the Turing test.”

- Tang Jie, lead researcher behind Wu Dao 2.0

Scommettono su modelli multimodali e multitasking simili a GPT per raggiungere l'AGI, e senza dubbio Wu Dao 2.0, come prima GPT-3, è un passo importante verso questa direzione. Tuttavia, nessuno sa quale sia la strada giusta, né se varrà la pena raggiungerla.


Per approfondire

GPT-3 Scared You? Meet Wu Dao 2.0: A Monster of 1.75 Trillion Parameters
BAAI conference presented Wu Dao 2.0. The most powerful AI to date.
Beijing-funded AI language model tops Google and OpenAI in raw numbers
The WuDao 2.0 natural language processing model had 1.75 trillion parameters, topping similar models developed in the US as China pushes to close in on its rival in critical technologies.
GPT-3: dialoghi con l’intelligenza artificiale di OpenAI
Cos’è GPT-3 di OpenAI? Si tratta di un’intelligenza artificiale molto evoluta. Dopo un lungo periodo d’attesa sono stato abilitato all’utilizzo del programma beta delle API. Come funziona? Lo vediamo insieme!
MUM: la nuova tecnologia di Google per le query di ricerca complesse
Scopriamo come funziona e quali sono gli obiettivi di MUM (Multitask Unified Model), la nuova tecnologia basata sull’intelligenza artificiale a disposizione di Google. Come cambierà la SEO in futuro?
Cos’è LaMDA? La comprensione del linguaggio naturale secondo Google
Sul palco di Google I/O 2021, Sundar Pichai presenta LaMDA, l’ultimo passo avanti di Google in termini di NLU (Natural Language Understanding). La comprensione del linguaggio naturale accelera notevolmente.
GPT-3, Generative Pre-trained Transformer: cos’è e come funziona?
GPT-3 (Generative Pre-trained Transformer) è un modello di linguaggio di OpenAI basato sull’intelligenza artificiale particolarmente efficiente nella produzione automatica di testi.