Algoritmi Generativi: non solo testo e immagini, ma anche video e suoni
Oggi non si fa che parlare di generazione di testo ed immagini attraverso l'intelligenza artificiale. Ma gli algoritmi generativi sono già oltre, e possono creare video e audio a partire da un input testuale. Scopriamo questi sistemi.
In diversi appuntamenti di formazione o ad eventi ho avuto l'occasione di raccontare le potenzialità degli algoritmi generativi. Tra gli argomenti più "caldi", troviamo di certo la generazione del testo (ad esempio con GPT-3) e la generazione delle immagini (ad esempio attraverso DALLE-2, Midjourney, Stable Diffusion). Ma non solo, oggi si parla sempre maggiormente anche dati artificiali e di reti GAN.
Spesso, tra le considerazioni di chiusura dei miei interventi ho detto che ci stiamo avviando verso algoritmi in grado di creare contenuti sempre più vicini alla perfezione! Non esclusivamente nell'ambito del testo e delle immagini, ma anche della voce, dell'audio e del video.
Oggi possiamo dire che non mi stavo sbagliando, infatti recentemente sono nati progetti molto interessanti che riguardano i concetti di Text-To-Video, Text-To-Audio e Text-to-Music.
Make-a-Video di Meta
Qualche tempo fa, condivisi un progetto denominato CogVideo, uno dei primi esperimenti di Text-To-Video: da un prompt testuale viene generato un video, senza alcuna ripresa.
Recentemente, Meta ha presentato Make-A-Video, un sistema all'avanguardia basato sull'intelligenza artificiale, in grado generare video a partire da un contenuto testuale.
Quello che segue è un esempio di output generato dal prompt..
a teddy bear painting a portrait
Anche se il risultato è abbastanza accurato rispetto al prompt, non possiamo di certo affermare che si tratta di un video professionale, tuttavia si stanno compiendo enormi passi in avanti, e lo stesso Zuckerberg si è espresso in merito.
“This is pretty amazing progress. It’s much harder to generate video than photos because beyond correctly generating each pixel, the system also has to predict how they’ll change over time”
- Mark Zuckerberg -
Meta non ha indicato alcuna data di rilascio per l'utilizzo al pubblico, ma l'effetto sarà quello di spingere competitor come OpenAI e Stability.AI a realizzare i propri modelli in questo ambito.
Emad Mostaque (CEO di Stability.AI), infatti, ha dichiarato in un tweet che il suo team sta già lavorando a un modello in grado di produrre risultati migliori.
Generazione di video a partire da un'immagine o da un altro video
Make-A-Video, non è semplicemente in grado di produrre un video a partire da un prompt testuale, ma anche da immagini o da un altro video.
Nel primo caso, è strabiliante come l'algoritmo riesca a percepire il contesto, e a generare il contenuto tra un'immagine e l'altra. Nel secondo caso, il funzionamento è simile alle variazioni che DALLE-2 può apportare ad immagini esistenti, ma in questo caso il tutto avviene su file video.
Imagen Video di Google
Qualche giorno dopo l'annuncio di Meta, Google presenta Imagen Video, la sua versione di algoritmo in grado di trasformare un prompt testuale in video. Quelli che seguono sono alcuni esempi.
Il principio di funzionamento è molto interessante: dopo aver elaborato il testo, un modello di diffusione genera un video piccolissimo: 16 fotogrammi, 24 x 24 pixel, 3 fotogrammi al secondo.
Successivamente, attraverso algoritmi specifici, viene realizzato l'upsampling e l'aumento di frequenza, fino a video 1280 x 768 pixel, con 24 fotogrammi/secondo.
Altri sviluppi interessanti riguardanti i video generati dall'AI
Recentemente, Glenn Marshall, un noto AI Artist, ha vinto il primo premio al Festival del Cortometraggio di Cannes con un film generato attraverso l'intelligenza artificiale.
L'artista ha usato CLIP, una rete neurale di OpenAI e un filmato esistente come base dell'immagine e del movimento. Ha usato un prompt testuale, chiedendo all'algoritmo di generare un video di...
"un dipinto con un corvo in uno scenario desolato".
Nel video che segue, vediamo come l'algoritmo modifica il video in tempo reale per rispettare il prompt testuale.
La dichiarazione del creator, è una visione che trovo emozionante quanto il risultato che è riuscito ad ottenere nel suo video.
“It’s this that makes the film work so well, as the AI is trying to make every live action frame look like a painting with a crow in it, so I’m meeting it half way, and the film becomes kind of a battle between the human and the AI — with all the suggestive symbolism”
- Glenn Marshall -
Quello che segue è il video integrale del cortometraggio premiato al festival.
AudioGen: dal testo ai suoni
AudioGen è un modello di AI generativa basato su Transformer che può creare audio in base ad un input testuale, oppure può modificare un audio esistente. È stato presentato da Meta AI e l'Università Ebraica di Gerusalemme.
Secondo i ricercatori, il modello risolve problemi audio complessi. Può distinguere suoni di oggetti diversi e separarli acusticamente, ad esempio più interlocutori che parlano contemporaneamente. Per l'addestramento si è utilizzata una tecnica che mescola diversi campioni audio. In questo modo, il modello ha imparato a separare più fonti.
AudioGen può generare nuove composizioni audio che non facevano parte del set di dati di training, ad esempio una persona che cammina nella foresta fischiettando mentre gli uccelli cinguettano in sottofondo. Tutto ciò che serve è un prompt testuale. Il video che segue è una dimostrazione.
AudioLM di Google
Il 6 ottobre Google ha presentato, attraverso un post nel blog di Google AI, un nuovo framework per la generazione audio che impara a generare discorsi realistici e musica per pianoforte ascoltando solo l'audio.
L'audio generato dimostra coerenza a lungo termine (ad esempio, sintassi nel parlato, melodia nella musica) e alta fedeltà, superando le prestazioni dei sistemi precedenti e spingendo le frontiere della generazione audio con applicazioni nella sintesi vocale o nella musica assistita da macchine.
Nel video è possibile vedere, ma soprattutto sentire, alcuni esempi di funzionamento di AudioML. L'algoritmo riesce a continuare il parlato di una persona mantenendo la coerenza dal punto di vista semantico e delle caratteristiche audio. Lo stesso avviene con il suono di un pianoforte.
MusicLM di Google
MusicML è un modello generativo in grado generare musica ad alta fedeltà partendo da un prompt testuale.
Gli esempi sono a dir poco sbalorditivi, e non si tratta solo di brevi clip ma anche di canzoni articolate.
Esempi di musica generata dall'algoritmo
Prompt: "Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive".
Prompt: "The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls".
Secondo Google, il sistema supera i precedenti sia in termini di qualità audio che di aderenza alla descrizione testuale. MusicLM, inoltre, è multimodale: può produrre audio partendo da una melodia (anche fischiata o canticchiata) unita al prompt testuale.
Conclusioni
Lo sviluppo degli algoritmi generativi sta avendo un'accelerazione senza precedenti. Migliora la qualità degli output, ma soprattutto migliorano le architetture dei modelli e la cultura sulla qualità dei dati di training.
La via della crescita è proprio questa:
non solo modelli sempre più grandi, ma nuovi approcci e paradigmi.
E ci saranno, ci saranno eccome.