Translatotron 2 di Google: migliora la traduzione e blocca il deepfake
Cos'è Translatotron? Come funziona l'AI di Google dedicata alle traduzioni automatiche in grado anche di riprodurre la voce di partenza? Scopriamolo insieme anche attraverso un video di test.
Cos'è Translatotron?
Translatotron è un sistema di Google basato sull'AI che permette di creare delle traduzioni automatiche a partire dal parlato di una persona riproducendo anche la voce di partenza.
Non si tratta, quindi, di sistemi composti da uno Speech To Text (STT) che trasforma il parlato in testo, da un traduttore testuale (es. Google Translate) ed infine un Text To Speech (TTS) che trasforma nuovamente il testo in audio.
Con Translatotron, Google sta provando a sviluppare un sistema Speech To Speech, senza un’intermediazione testuale.
Nel video che segue ho raccolto alcuni esempi di traduzioni di Translatotron 2 che mantiene la voce originaria.
Come funziona
Il funzionamento è davvero sbalorditivo. Il sistema è basato su reti neurali, che utilizzano come input lo spettrogramma della voce da tradurre e producono come output lo spettrogramma della voce tradotta.
Lo spettrogramma è una rappresentazione visuale di un segnale, in questo caso l'audio del parlato.
Per semplificare, possiamo dire che Google Translate, ad esempio, deve ascoltare ciò che dice l'utente, trascriverlo, tradurlo ed infine rileggerlo.
Translatotron, invece, analizza lo spettrogramma del parlato e ne produce un altro che rappresenta la traduzione.
Per farlo, utilizza un "vocoder neurale" che converte lo spettrogramma tradotto in forme d’onda audio e con l’opzione di un encoder del parlato che mantiene intatto il carattere della voce sorgente.
Translatotron 2
Translatotron 2 è un modello notevolmente migliorato, sia nella capacità di traduzione, sia nella qualità della voce riprodotta.
Experimental results suggest that Translatotron 2 outperforms the original Translatotron by a large margin in terms of translation quality and predicted speech naturalness, and drastically improves the robustness of the predicted speech by mitigating over-generation, such as babbling or long pause.
Non solo.. con questa versione Google mira a porre le basi per impedire che questo tipo di tecnologie venga utilizzato come deepfake, ovvero per impedire che dei contenuti audio generati dall'intelligenza artificiale vengano utilizzati per dare voce a messaggi non pronunciati da determinate persone.