Algoritmi Generativi: non solo testo e immagini, ma anche video e suoni

Oggi non si fa che parlare di generazione di testo ed immagini attraverso l'intelligenza artificiale. Ma gli algoritmi generativi sono già oltre, e possono creare video e audio a partire da un input testuale. Scopriamo questi sistemi.

Alessio Pomaro

05 ott 2022 • 7 min read

Algoritmi Generativi: non solo testo e immagini, ma anche video e suoni

In diversi appuntamenti di formazione o ad eventi ho avuto l'occasione di raccontare le potenzialità degli algoritmi generativi. Tra gli argomenti più "caldi", troviamo di certo la generazione del testo (ad esempio con GPT-3) e la generazione delle immagini (ad esempio attraverso DALLE-2, Midjourney, Stable Diffusion). Ma non solo, oggi si parla sempre maggiormente anche dati artificiali e di reti GAN.

Spesso, tra le considerazioni di chiusura dei miei interventi ho detto che ci stiamo avviando verso algoritmi in grado di creare contenuti sempre più vicini alla perfezione! Non esclusivamente nell'ambito del testo e delle immagini, ma anche della voce, dell'audio e del video.

Oggi possiamo dire che non mi stavo sbagliando, infatti recentemente sono nati progetti molto interessanti che riguardano i concetti di Text-To-Video, Text-To-Audio e Text-to-Music.

Make-a-Video di Meta

Qualche tempo fa, condivisi un progetto denominato CogVideo, uno dei primi esperimenti di Text-To-Video: da un prompt testuale viene generato un video, senza alcuna ripresa.

Recentemente, Meta ha presentato Make-A-Video, un sistema all'avanguardia basato sull'intelligenza artificiale, in grado generare video a partire da un contenuto testuale.

Quello che segue è un esempio di output generato dal prompt..

a teddy bear painting a portrait

Un esempio di generazione di video da un prompt testuale di Make-A-Video di Meta

Anche se il risultato è abbastanza accurato rispetto al prompt, non possiamo di certo affermare che si tratta di un video professionale, tuttavia si stanno compiendo enormi passi in avanti, e lo stesso Zuckerberg si è espresso in merito.

“This is pretty amazing progress. It’s much harder to generate video than photos because beyond correctly generating each pixel, the system also has to predict how they’ll change over time”
- Mark Zuckerberg -

Meta non ha indicato alcuna data di rilascio per l'utilizzo al pubblico, ma l'effetto sarà quello di spingere competitor come OpenAI e Stability.AI a realizzare i propri modelli in questo ambito.

Emad Mostaque (CEO di Stability.AI), infatti, ha dichiarato in un tweet che il suo team sta già lavorando a un modello in grado di produrre risultati migliori.

Something quite fun is that @StabilityAI is the only independent entity that can credibly say that we will output a better model than this.

Plus folk may actually get to use it.

Lot's of work continues by the team, growing every day.. https://t.co/kPp2VgY66H
— Emad (@EMostaque) September 29, 2022

Generazione di video a partire da un'immagine o da un altro video

Make-A-Video, non è semplicemente in grado di produrre un video a partire da un prompt testuale, ma anche da immagini o da un altro video.

Nel primo caso, è strabiliante come l'algoritmo riesca a percepire il contesto, e a generare il contenuto tra un'immagine e l'altra. Nel secondo caso, il funzionamento è simile alle variazioni che DALLE-2 può apportare ad immagini esistenti, ma in questo caso il tutto avviene su file video.

Imagen Video di Google

Qualche giorno dopo l'annuncio di Meta, Google presenta Imagen Video, la sua versione di algoritmo in grado di trasformare un prompt testuale in video. Quelli che seguono sono alcuni esempi.

Il principio di funzionamento è molto interessante: dopo aver elaborato il testo, un modello di diffusione genera un video piccolissimo: 16 fotogrammi, 24 x 24 pixel, 3 fotogrammi al secondo.
Successivamente, attraverso algoritmi specifici, viene realizzato l'upsampling e l'aumento di frequenza, fino a video 1280 x 768 pixel, con 24 fotogrammi/secondo.

Altri sviluppi interessanti riguardanti i video generati dall'AI

Recentemente, Glenn Marshall, un noto AI Artist, ha vinto il primo premio al Festival del Cortometraggio di Cannes con un film generato attraverso l'intelligenza artificiale.

L'artista ha usato CLIP, una rete neurale di OpenAI e un filmato esistente come base dell'immagine e del movimento. Ha usato un prompt testuale, chiedendo all'algoritmo di generare un video di...

"un dipinto con un corvo in uno scenario desolato".

Nel video che segue, vediamo come l'algoritmo modifica il video in tempo reale per rispettare il prompt testuale.

Come l'intelligenza artificiale modifica il video in real-time grazie ad un prompt testuale

La dichiarazione del creator, è una visione che trovo emozionante quanto il risultato che è riuscito ad ottenere nel suo video.

“It’s this that makes the film work so well, as the AI is trying to make every live action frame look like a painting with a crow in it, so I’m meeting it half way, and the film becomes kind of a battle between the human and the AI — with all the suggestive symbolism”
- Glenn Marshall -

Quello che segue è il video integrale del cortometraggio premiato al festival.

The Crow: il cortometraggio generato dall'AI che ha vinto Festival di Cannes

AudioGen: dal testo ai suoni

AudioGen è un modello di AI generativa basato su Transformer che può creare audio in base ad un input testuale, oppure può modificare un audio esistente. È stato presentato da Meta AI e l'Università Ebraica di Gerusalemme.

Secondo i ricercatori, il modello risolve problemi audio complessi. Può distinguere suoni di oggetti diversi e separarli acusticamente, ad esempio più interlocutori che parlano contemporaneamente. Per l'addestramento si è utilizzata una tecnica che mescola diversi campioni audio. In questo modo, il modello ha imparato a separare più fonti.

AudioGen può generare nuove composizioni audio che non facevano parte del set di dati di training, ad esempio una persona che cammina nella foresta fischiettando mentre gli uccelli cinguettano in sottofondo. Tutto ciò che serve è un prompt testuale. Il video che segue è una dimostrazione.

0:00

Un esempio di generazione di suoni da parte di AudioGen

AudioLM di Google

Il 6 ottobre Google ha presentato, attraverso un post nel blog di Google AI, un nuovo framework per la generazione audio che impara a generare discorsi realistici e musica per pianoforte ascoltando solo l'audio.

L'audio generato dimostra coerenza a lungo termine (ad esempio, sintassi nel parlato, melodia nella musica) e alta fedeltà, superando le prestazioni dei sistemi precedenti e spingendo le frontiere della generazione audio con applicazioni nella sintesi vocale o nella musica assistita da macchine.

AudioLM di Google: esempi di funzionamento

Nel video è possibile vedere, ma soprattutto sentire, alcuni esempi di funzionamento di AudioML. L'algoritmo riesce a continuare il parlato di una persona mantenendo la coerenza dal punto di vista semantico e delle caratteristiche audio. Lo stesso avviene con il suono di un pianoforte.

MusicLM di Google

MusicML è un modello generativo in grado generare musica ad alta fedeltà partendo da un prompt testuale.
Gli esempi sono a dir poco sbalorditivi, e non si tratta solo di brevi clip ma anche di canzoni articolate.

Esempi di musica generata dall'algoritmo

Prompt: "Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive".

MusicML: esempio 1

0:00

/0:30

Prompt: "The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls".

MusicML esempio 2

0:00

/0:30

Secondo Google, il sistema supera i precedenti sia in termini di qualità audio che di aderenza alla descrizione testuale. MusicLM, inoltre, è multimodale: può produrre audio partendo da una melodia (anche fischiata o canticchiata) unita al prompt testuale.

Conclusioni

Lo sviluppo degli algoritmi generativi sta avendo un'accelerazione senza precedenti. Migliora la qualità degli output, ma soprattutto migliorano le architetture dei modelli e la cultura sulla qualità dei dati di training.

La via della crescita è proprio questa: