Google I/O in 10 punti chiave e qualche considerazione
10 punti chiave e alcune riflessioni sui progetti presentati da Google durante l'I/O
Ieri sera abbiamo seguito il tanto atteso Google I/O, e come annunciato, sono state presentate tutte le novità che ruotano attorno all'intelligenza artificiale, in quella che Sundar Pichai ha definito "The Gemini Era".. un'era sempre più multimodale, e sempre più "long context", che mantiene Gemini 1.5 Pro come flagship model.
L'evento è stato una lunga carrellata (quasi stordente) di applicazioni rivoluzionarie in cui emerge, ancora una volta, la vera forza di Google: l'integrazione dell'AI generativa in ogni elemento del suo vasto ecosistema.
I 10 esempi chiave
Quella che segue è la mia selezione dei 10 esempi più significativi presentati durante l'evento.
1) Veo, il modello dedicato alla generazione video
Un potente modello text-to-video che, nella visione di Google, consentirà ai registi di creare riprese cinematografiche attraverso prompt testuali.
Può generare video di alta qualità con risoluzione 1080p che possono superare il minuto di durata, con un'ampia gamma di stili cinematografici e visivi.
Il modello sarà disponibile su VideoFX e la proiezione futura lo vede integrato anche su YouTube per la creazione di shorts.
La pagina che segue è l'approfondimento nel sito web di Google DeepMind.
2) L'integrazione nativa dell'AI nella ricerca
Google sta trasformando radicalmente l'esperienza di ricerca, integrando tecnologie avanzate di AI per semplificare e arricchire l'interazione degli utenti con il web, rendendo la ricerca più intuitiva e adattata alle esigenze personali.
Le nuove funzionalità consentiranno di formulare domande complesse in una sola ricerca, integrando capacità di ragionamento a più step e pianificazione.
Sarà possibile personalizzare l'esperienza per semplificare il linguaggio o dettagliarlo maggiormente. Utile per chi si avvicina a nuovi argomenti o per spiegazioni a un pubblico giovane.
Attraverso le nuove capacità di pianificazione direttamente nella ricerca, Google mira ad aiutare gli utenti a creare programmi (es. per dieta e vacanze), con possibilità di customizzazione.
Verrà introdotto un nuovo formato di pagina dei risultati organizzata dall'AI, con l'obiettivo di facilitare l'esplorazione di idee con titoli e box generati che categorizzano i contenuti in modo innovativo.
Sarà possibile effettuare ricerche basate su video, ampliando ulteriormente le capacità di search visuale.
L'approfondimento nel blog di Google.
3) Project Astra: il futuro degli AI Assistant
Un progetto dedicato alla creazione di agenti AI universali che possono interagire in modo naturale e immediato, comprendendo e rispondendo al contesto dinamico del mondo reale.
Non permette soltanto l'interazione con l'acquisizione della fotocamera in real-time, ma addirittura di interagire con il video nello schermo, ad esempio indicando gli elementi di interesse.
Davvero emozionante l'utilizzo del sistema
attraverso gli smart glasses e la voce.
Gli aggiornamenti recenti alla famiglia di modelli Gemini da parte di Google indicano passi significativi verso sistemi più veloci, efficienti e capaci di interazioni multimodali avanzate, spianando la strada per assistenti AI futuristici e onnipresenti.
L'approfondimento nel blog di Google.
4) Imagen 3: il nuovo modello text-to-image
Imagen 3 rappresenta un significativo avanzamento nella tecnologia di generazione di immagini da input testuale, con migliorie sostanziali nella qualità visiva, nella comprensione dei prompt e in termini di sicurezza, promettendo una più ampia applicabilità e integrazione nei prodotti e servizi di Google.
Il sistema si basa sulle ultime innovazioni di Google DeepMind per la sicurezza e la responsabilità, includendo watermarking digitale, impercettibile all'occhio umano ma rilevabile per l'identificazione.
Imagen 3 avrà presto le funzionalità della versione precedente, come inpainting e outpainting, e verrà integrato nei prodotti Google come Gemini, Workspace e Ads.
L'approfondimento dal sito web di Google DeepMind.
5) Gemini 1.5 Pro è ora disponibile per tutti
Disponibile per tutti e con un'espansione della finestra di contesto a 2 milioni di token.
L'approfondimento nel blog di Google.
6) Trillium: una nuova architettura di TPU efficiente e performante
Il lancio delle TPU Trillium di sesta generazione segna un significativo avanzamento nella tecnologia delle unità di elaborazione di Google, promettendo notevoli miglioramenti nella velocità di training e nell'efficienza energetica, essenziali per il futuro dello sviluppo di modelli di intelligenza artificiale su larga scala.
Questa generazione di TPU raggiunge un impressionante aumento di 4,7 volte rispetto alle prestazioni di calcolo di picco per chip della versione precedente.
L'approfondimento nel blog di Google Cloud.
7) Gemini 1.5 Flash
Un modello più leggero, ottimizzato per attività in cui diventano fondamentali la bassa latenza e i costi.
Gli sviluppatori possono utilizzarlo con una finestra di contesto di 1 milione di token su Google AI Studio e Vertex AI.
8) Generative Music con MusicFX
MusicFX consentirà di liberare il DJ nascosto in ognuno di noi, per creare nuovi ritmi e composizioni.
Il sistema aiuta a mixare i ritmi combinando generi, strumenti e altro, per dare vita a storie musicali. È un playground per ispirare la generazione di nuova musica.
Un approfondimento nel blog di Google.
9) Gemini integrato su Google Sheets
Grazie a questa integrazione sarà possibile interagire con Gemini direttamente all'interno di Google Sheets, per analizzare i dati nei fogli attraverso il linguaggio naturale.
La possibilità di organizzare gli allegati di Drive, generare un foglio e analizzare i dati verrà implementata su Labs entro la fine dell'anno.
10) L'integrazione di Gemini anche su Gmail, Docs, Calendar
Gemini sarà inserito su Gmail, Docs e Calendar. Gli strumenti funzionano già bene insieme, ma l'integrazione renderà ancora più semplici le operazioni tra le applicazioni. Ad esempio sarà possibile riconoscere determinate mail, organizzandole su Drive e Sheets.
Considerazioni finali
Le applicazioni presentate sono assolutamente straordinarie, e vanno oltre ai 10 punti condivisi. Si è parlato, infatti, anche di:
- LearnLM, una famiglia di modelli ottimizzati per l'apprendimento;
- Intelligenza Artificiale responsabile;
- Ask Photos, un nuovo modo per cercare le tue foto con Gemini;
- Android, con un'integrazione di Gemini Nano sui device;
- Vertex AI, con i nuovi modelli integrati e disponibili;
- Gemma, con i nuovi modelli PaliGemma (un VLM) e Gemma 2.
Tuttavia ho trovato qualche sintomo di frammentazione nell'azione di Google, con una miriade di progetti basati sull'AI senza dare un riferimento chiaro all'utente. Chi ha seguito le due ore di diretta, di certo è rimasto disorientato.. o almeno per me la sensazione è stata questa.
Useremo Astra, Assistant, SGE o Gemini per una ricerca multimodale? Continuo a ripetere che manca davvero un unico assistente centrale per tutto l'ecosistema.
Infine, dopo aver visto la naturalezza dell'interazione messa in atto da OpenAI durante lo Spring Update, per quanto innovativo sia il progetto Astra, rimane difficile affrontare un altro assistente.
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂