L'evoluzione di Gemini di Google: qualche riflessione
Un piccolo viaggio e qualche riflessione per fare chiarezza nel grande caos che sta generando Google nella sua (rin)corsa per la leadership dell'AI Generativa.
Il 6 dicembre viene presentato Gemini (il modello di linguaggio più grande e potente di Google), in un post emozionante che descrive funzionalità sbalorditive e test che dimostrano performance superiori ai modelli di OpenAI. Nello stesso articolo viene annunciato che Bard, nello stesso giorno, avrebbe iniziato ad usare la versione Pro del modello.
L'8 febbraio Google cambia nome a Bard, rendendolo Gemini, basato sull'omonimo modello, versione Pro 1.0.
Non essendoci confusione a sufficienza, alla piattaforma chatbot (il ChatGPT di Google) viene dato lo stesso nome del modello.
Contemporaneamente, viene lanciata la versione più evoluta di Gemini (il chatbot) a pagamento: Gemini Advanced con Gemini Ultra 1.0: il modello di linguaggio più evoluto. Il tutto, esattamente in linea alla formula di OpenAI (ChatGPT con GPT-3.5 gratuito + ChatGPT Plus con GPT-4 a pagamento) e con prezzi abbastanza allineati.
Dopo svariate interazioni, è chiaro che i due modelli sono della stessa classe. Apparentemente gli output sono paragonabili (e questo non stupisce più), ma in task in cui si pretende precisione e dettaglio, il modello di Google non regge il confronto con GPT-4.
Alcuni test usando Gemini Advanced
Nei post che seguono, ho pubblicato alcuni test.
Il tutto, senza contare che la piattaforma di OpenAI mette a disposizione ulteriori preziose integrazioni per l'utilizzo del sistema come assistente personale (plugin, GPTs, code interpreter, Assistants).
Gemini 1.5
Dopo una settimana, viene lanciato il modello Gemini 1.5 Pro (la versione precedente era Gemini Pro 1.0.. spero riusciremo a capirci quando ne usciranno altre!), che ha performance paragonabili alla versione Ultra 1.0, ma con una finestra di contesto che gestisce fino a 1 milione di token.
Ma se la versione Ultra, su una finestra di contesto molto più piccola, risulta essere imprecisa (in base ai miei test, ma non sono l'unico ad averne fatti), su 1 milione di token, la Pro come potrà essere?
Probabilmente inferiore, ma questo
va accertato: sono in whitelist.
Notevoli le nuove funzionalità multimodali, ad esempio la capacità di gestire immagini, video, audio e codice. Nel video che segue si può vedere un esempio di gestione di un video all'interno di AI Studio.
Performance
Nella descrizione delle performance su una grande quantità di token in input (sempre in riferimento al post), vengono fatti test di ricerca di testo.
In the Needle In A Haystack (NIAH) evaluation, where a small piece of text containing a particular fact or statement is purposely placed within a long block of text, 1.5 Pro found the embedded text 99% of the time, in blocks of data as long as 1 million tokens.
Ma trovare un testo incorporato rappresenta un task relativamente semplice. Rispettare delle istruzioni precise specificate nel prompt, invece, è quello che serve per portare in produzione questi modelli.
Architettura
Nel post di presentazione, inoltre, viene raccontata l'architettura MoE (Mixture of Experts).. ma anche GPT-4, con tutta probabilità, utilizza la stessa architettura.
Ottimizzazione per la lingua inglese
Nel frattempo su Gemini Advanced (il chatbot), compare un messaggio che avverte che "il modello è ottimizzato per l'inglese, ma può rispondere anche nelle altre lingue".
Conclusioni
Non riesco davvero a realizzare la confusione che stanno generando tutti questi cambiamenti repentini e apparentemente poco ponderati negli utenti. Senza contare la difficoltà nella consultazione della documentazione e nell'uso della piattaforma. Un esempio banale: anche solo capire quali modelli sono disponibili su Vertex AI risulta essere complicato, dovendosi districare in una vera e propria "giungla" di pagine. La stessa informazione, relativa ai modelli OpenAI, si ottiene in due clic.
Le performance di GPT-4, secondo me, non sono ancora raggiunte (e non ho fatto test con la versione Turbo!). Non vorrei dirlo, ma GPT-4 è basato su una tecnologia del 2022.
Non oso immaginare il momento
in cui verrà rilasciato GPT-5
Aggiungo un'ultima considerazione per comprendere l'evoluzione di queste tecnologie in casa Google rispetto a OpenAI. Mentre Google presenta Lumiere per la generazione dei video (sicuramente evoluto e innovativo, ma..), OpenAI presenta Sora, che può generare output come quelli che seguono.
Di certo Google ha l'ecosistema dalla sua parte, e può aggiungere funzionalità basate sull'AI generativa in ogni software che ne fa parte. Ma sui modelli integrabili in flussi aziendali customizzati, siamo ancora lontani dai competitor.
Quanti rinnoveranno Gemini Advanced dopo i due mesi gratuiti? Se dovessi rispondere oggi, direi.. pochissimi.
Per approfondire
- GRAZIE -
Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂