Generative AI: novità e riflessioni - #4 / 2024

Un nuovo appuntamento per aggiornarsi e riflettere sulle tematiche che riguardano l'intelligenza artificiale e la Generative AI.

Generative AI: novità e riflessioni - #4 / 2024
Generative AI: novità e riflessioni - #4 / 2024

Una rubrica che racconta le novità più rilevanti che riguardano l'Intelligenza Artificiale, con qualche riflessione.

Buon aggiornamento,
e buone riflessioni..

Codex, Rai 3: assistenti virtuali empatici

L'innovazione tecnologica porta con sé
nuove esperienze, ma anche nuove "insidie".

Nella puntata di Codex andata in onda il 9 aprile su Rai 3 si è parlato di assistenti virtuali evoluti che possono diventare protagonisti nella vita privata e intima delle persone.

Mi è stato chiesto come funzionano, e nel servizio lo racconto, in modo semplice, e con alcuni esempi pratici.

Il mio intervento durante Codex, Rai 3, con Barbara Carfagna e Massimo Cerofolini

Sono tre gli ingredienti fondamentali che devono accompagnare l'accelerazione tecnologica che stiamo vivendo:

  1. le contromisure tecniche,
  2. nuovi sistemi di governance,
  3. la cultura su questi sistemi.. o, come viene definita nel servizio, "educazione digitale".

La puntata completa si può vedere su Rai Play, con Barbara Carfagna e Massimo Cerofolini.


TEDx Padova Salon: BrAIns

L'AI non genera skill, ma estende e
potenzia delle competenze già consolidate.

Un TEDx Padova Salon ricco di spunti, idee, innovazione, in una location d'eccezione (Le Village by CA Triveneto), con dei compagni di viaggio straordinari: Eleonora Chioda, Margherita Cera, Fabrizio Dughiero, Pietro Orciuolo.

Il mio messaggio di chiusura..

Portiamo questi concetti [sull'AI generativa] in azienda, e iniziamo a far girare il volano. Perché non c'è miglior prompt engineer di chi conosce i processi interni, potenziato da questa tecnologia.

Meta ha rilasciato Llama 3

Ho iniziato a provare il modello con alcuni prompt del mio benchmark, che producono output "semplici", ma con istruzioni precise e dettagliate.
Ho testato la generazione di codice, analisi di recensioni, clustering, sentiment analysis, generazione di title, description e micro copy in ambito SEO, analisi di video, topic modeling.

Risultato: mentre Llama 2 e anche modelli più evoluti hanno dimostrato diversi problemi nel rispettare le indicazioni, Llama 3 risponde molto bene su quasi tutti i test.

Meta ha rilasciato il modello open source in due dimensioni (8B e 70B di parametri), con una finestra di contesto di 128k token, e con particolare attenzione alla sicurezza.

Sembra che arriverà anche una versione più evoluta da 400B di parametri.

L'utilizzo è possibile anche per uso commerciale, ma con delle restrizioni.
I risultati nei benchmark più comuni sono degni di nota! E sarà presto a disposizione su tutte le piattaforme e servizi cloud.

Introducing Meta Llama 3: The most capable openly available LLM to date
Today, we’re introducing Meta Llama 3, the next generation of our state-of-the-art open source large language model. In the coming months, we expect to share new capabilities, additional model sizes, and more.
Il modello open più evoluto è arrivato,
con performance vicine ad alcuni
modelli proprietari molto noti.
Llama 3 di Meta: performance
Llama 3 di Meta: performance

L'integrazione di Gemini Pro su BigQuery

Inizia ad emergere la carta vincente
di Google in ambito di AI generativa:
l'integrazione nell'ecosistema.

Su BigQuery è possibile creare un modello basato su Gemini Pro, per poi usarlo sui dati salvati nella piattaforma con semplici query SQL.
Usando le Object Tables, inoltre, si possono anche gestire contenuti multimediali nei prompt.

Questo è uno step potente per quanto riguarda l'automazione dei processi, aprendo la via all'uso di LLM senza API e programmazione.

E soprattutto, su BigQuery possiamo avere qualunque tipo di dato, incrociando fonti e creando contesti perfetti per il modello generativo.

I test che ho fatto hanno dato risultati molto interessanti.

L'integrazione di Gemini Pro su BigQuery: la presentazione di Google


OpenAI introduce API Batch

Un sistema per eseguire operazioni non urgenti
in modo asincrono con un costo inferiore del 50%.
OpenAI introduce API Batch
OpenAI introduce API Batch

Le chiamate API vengono effettuate in blocco, con risultati in 24 ore.
Questo è davvero molto interessante per elaborazioni come la generazione di contenuti, la classificazione e tutto ciò che non necessita di output in real-time.

Con queste formule e le performance (e i prezzi) di GPT-4 Turbo, la competitività anche rispetto a modelli open source (che comunque consumano risorse) diventa altissima.


Vasa-1 di Microsoft

Microsoft ha presentato Vasa-1, un modello in grado di trasformare una singola immagine statica di un volto e una clip audio in un video realistico con parlato e lip-sync.
Si tratta di un sistema che, come Vlogger di Google, non lavora su "ritagli" del volto, ma sulla diffusione del volto completa, considerando dinamiche facciali e movimenti della testa.

Esempi di Vasa-1 di Microsoft

Permette anche di controllare lo sguardo, la distanza della camera, le emozioni del soggetto del video.

L'evoluzione tecnologica è impressionante, come lo saranno i rischi e la responsabilità necessaria per gestirli.

Integrazioni di modelli generativi su Adobe Premiere Pro?

Adobe, in un comunicato, mostra delle esplorazioni di integrazione dell'AI generativa per l'editing dei video su Premiere Pro.

Non solo usando Firefly, ma anche Runway, Pika e Sora di OpenAI per l'estensione delle riprese.

Integrazioni di modelli generativi su Adobe Premiere Pro

Di certo, le questioni da risolvere per integrazioni di questo tipo non saranno banali. Adobe, infatti, non condivide proiezioni di implementazione.

Ma è innegabile che stiamo "annusando" delle modalità di lavoro che, in un modo o nell'altro, vedremo in azione nel prossimo futuro.
Adobe previews breakthrough AI innovations to advance professional video workflows within Adobe Premiere Pro

OpenAI rilascia la versione 2 delle API Assistants

OpenAI potenzia le API Assistants rilasciando la versione 2, diventando un framework RAG (Retrieval-Augmented Generation) in piena regola.

Una sintesi delle novità

  • Fino a 10k file per la knowledge e il retrieval.
  • Nuovo archivio vettoriale, con chunking, ed embeddings automatizzati.
  • Gestione dei token per ogni "run" con lo status (se la generazione risulta incompleta è possibile continuarla).
  • Per ogni "run" è possibile scegliere lo strumento che deve usare l'assistente (es. File Search, Code Interpreter o funzioni custom).
  • Parametri configurabili, come "temperature" e "top_p".
  • Possibilità di usare la modalità JSON, per ottenere risposte in formato json valido.
  • Creazione di thread di conversazioni personalizzate, comprendenti anche la gestione di file.
Era quello che ci si aspettava e che mancava: maggior flessibilità. E con GPT4 Turbo a disposizione in produzione, il potenziale è davvero interessante.

Cosa manca ancora ancora? La gestione dei task in modalità multi-agente.


RAGFlow, un framework RAG open source

Ho provato RAGFlow, un framework RAG (Retrieval-Augmented Generation) open source dotato di un'interfaccia web based che permette di configurare completamente il sistema.

  • Permette di gestire le knowledge base, configurando la vettorializzazione (modelli e parametri) e la suddivisione dei dati in "chunk".
  • È possibile creare diversi assistenti che usano una o più basi di conoscenza, gestendo messaggi, system prompt, caratteristiche, soglia di similarità tra le query e i chunk della knowledge, parametri generici, LLM che gestisce la conversazione e i risultati della query vettoriale.

Pur usando un modello di embeddings e un LLM non estremamente evoluti, i risultati sono già molto interessanti.

Il progetto è su GitHub, e può essere installato ovunque.

GitHub - infiniflow/ragflow: RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding.
RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding. - infiniflow/ragflow

Performance di Llama 3 su Groq

Con Llama 3 70B abbiamo un modello open source che..

  • può generare 250-300 token al secondo su Groq;
  • è già in posizione alta nella Chatbot Arena Leaderboard, a contatto con i modelli più performanti.

L'evoluzione di queste tecnologie è veloce e impressionante.

Assolutamente da provare su Groq.


Vidu sarà la risposta cinese a Sora?

Si tratta di un modello Text-To-Video in grado di creare video di 16 secondi a 1080p.

Vidu sarà la risposta cinese a Sora?

Il sistema è stato sviluppato da Shengshu Technology e dalla Tsinghua University.

La qualità non sembra ancora paragonabile agli output di Sora, ma come primo passo è sorprendente.


Apple rilascia OpenELM

Una famiglia di modelli su misura per elaborazioni sui dispositivi.

Viene usata una nuova architettura definita "layer-wise scaling", che consente di assegnare meno parametri agli strati iniziali del transformer vicino all'input, e di aumentarli verso gli strati di uscita.

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of…
Questo permette di ottimizzare le risorse in base alla complessità delle informazioni ad ogni livello.

I rischi derivanti dal deepfake

Il The Washington Post parla di deepfake e di rischio per le elezioni globali. Rischio assolutamente concreto.

Credo che questo debba essere uno stimolo per accelerare nuovi sistemi di governance e la diffusione della cultura su questi sistemi.

Il The Washington Post parla di deepfake e di rischio per le elezioni globali.
Il The Washington Post parla di deepfake e di rischio per le elezioni globali.

Devono migliorare le contromisure tecnologiche e normative da un lato, e il PENSIERO CRITICO delle persone dall'altro.

Perché, diciamocelo.. considerando quanto approfondiamo le informazioni, oggi bastano titoli ambigui per fare disinformazione e scatenare discussioni sui social a non finire. Immaginiamoci cosa potrebbero scatenare output evoluti prodotti attraverso l'AI generativa!

OpenVoice V2 di MyShell: la clonazione istantanea di una voce umana

MyShell rilascia la versione 2 di OpenVoice, con un aumento della qualità e il supporto multilingua nativo.

Il sistema consente la clonazione istantanea di una voce umana, con una qualità notevole.

OpenVoice V2 di MyShell: la clonazione istantanea di una voce umana

La V1 e la V2 sono sistemi open source (MIT license), anche per uso commerciale.

GitHub - myshell-ai/OpenVoice: Instant voice cloning by MyShell.
Instant voice cloning by MyShell. Contribute to myshell-ai/OpenVoice development by creating an account on GitHub.

Microsoft rilascia Phi-3

Continua la proliferazione di modelli open e di piccole dimensioni: Microsoft rilascia Phi-3. In tre formati di parametri: 3.8B, 7B e 14B.

Questi modelli possono funzionare in locale nei dispositivi. Il più piccolo, quantizzato, anche su uno smartphone.

Con training dedicati possono dare ottimi risultati su domini specifici.
Introducing Phi-3: Redefining what’s possible with SLMs | Microsoft Azure Blog
We are excited to introduce Phi-3, a family of small open models offering groundbreaking performance, developed by Microsoft. Learn more.

Gemini 1.5 Pro con prompt multimodale (video)

La multimodalità è un elemento che ormai è parte integrante dell'ultima generazione di modelli generativi.

In questo esempio uso Gemini 1.5 Pro su Google AI Studio, con un video come elemento di input.

Gemini 1.5 Pro con prompt multimodale (video)

Il modello risponde a domande generali e specifiche, non solo riguardanti il parlato, ma anche su elementi visivi che compaiono nel video.
È possibile specificare un system prompt ed elaborare anche immagini, audio e file.


Un sistema RAG (Retrieval-Augmented Generation) basato su LangGraph e Llama 3 8B

Effetto Llama3: ora si può ragionare in modo concreto su applicazioni locali ad alte prestazioni.

LangChain presenta un sistema RAG basato su LangGraph e Llama 3 8B (Ollama), con Nomic AI per gli embeddings, Chroma come DB vettoriale e Tavily AI per la ricerca web.

langgraph/examples/rag/langgraph_rag_agent_llama3_local.ipynb at main · langchain-ai/langgraph
Contribute to langchain-ai/langgraph development by creating an account on GitHub.

Il tutto eseguibile in locale.

Un LLM open source con performance
elevate, cambia le regole del gioco.

Fine-tuning di Gemini 1.0 Pro

Google AI Studio permette di fare fine-tuning di Gemini 1.0 Pro.

È possibile usare un CSV di esempi, oppure usare l'interfaccia web (scomoda per gestire molti dati).
Possono essere impostati alcuni parametri avanzati, ad esempio epochs, learning rate multiplier e batch size.

Il moltiplicatore del tasso di apprendimento permette di attribuire un peso diverso ai dati di training, rispetto al training generale del modello di base.

Interessante per progetti molto specifici.

La modalità "multi-agente"

Sviluppare sistemi con LLM in modalità "multi-agente" può migliorarne le performance.

Cosa significa? Il task, in pratica, viene eseguito da diversi agenti autonomi basati su LLM che collaborano tra loro scambiandosi gli output. Ognuno con un ruolo preciso, con un system prompt specifico, con parametri personalizzati.

Nell'esempio uso AutoGen di Microsoft. Il task viene eseguito da un team di 4 agenti basati su GPT-4 Turbo.

Un esempio dell'utilizzo di AutoGen di Microsoft

Si potrebbe ottenere lo stesso flusso con diversi GPTs? Sì, però usando un sistema come questo, tutto può essere automatizzato, e possono avvenire vere interazioni autonome fino a raggiungere l'obiettivo.

Un nuovo progetto mostra come sia possibile addestrare modelli di diffusione (es. Stable Diffusion) attraverso dati "rumorosi" ottenendo comunque performance elevate.

Questo riduce di molto il problema della memorizzazione di precisi elementi dei dati di training (es. volti, oggetti, scene), e della conseguente riproducibilità.

In pratica, il sistema riesce a generare immagini di alta qualità senza avere mai "visto" un'immagine pulita, aprendo scenari interessanti.
GitHub - giannisdaras/ambient-tweedie: Official implementation for the paper: “Consistent Diffusion Meets Tweedie”
Official implementation for the paper: “Consistent Diffusion Meets Tweedie” - giannisdaras/ambient-tweedie

Come sarà TED tra 40 anni?

TED, collaborando con l'artista Paul Trillo e OpenAI, lo racconta con questo video realizzato con Sora.

Ad eccezione del logo TED, il video è completamente realizzato dal modello.

Chiaramente si tratta di una sperimentazione, che mette insieme nuove tecnologie e creatività a scopo dimostrativo, per scorgerne le potenzialità.

I computer diventeranno più intelligenti di noi?

I "computer", di certo, diventeranno sempre più abili ad accelerare processi. Ma quando parliamo di "intelligenza" siamo su piani diversi. Il termine "intelligenza artificiale" non aiuta nella comprensione di questi aspetti.

Un modello di linguaggio, ad esempio, può essere talmente performante da darci perfettamente la sensazione di "comprensione" e "ragionamento" (e su questo ci siamo quasi), ma non ha basi logiche solide e affidabili. Recentemente ho pubblicato un piccolo esperimento. Ho chiesto a diversi modelli: "devo mettermi in contatto con l’unico fratello di mio fratello… come posso fare?". Nessuno mi ha dato una risposta adeguata alla prima interazione.

Questi modelli ottengono punteggi impressionanti su molti benchmark, superano esami in modo più brillante della media delle persone, ma "cadono" su domande che richiedono ragionamenti che a chiunque sembrerebbero banali. Questo è un problema? No, se ne abbiamo la consapevolezza e li usiamo laddove possono darci dei reali vantaggi.

Questo fa capire che questi sistemi, in un certo senso, si comportano in modo intelligente pur non essendo intelligenti. Gli algoritmi, se gestiti in modo adeguato, agiscono con successo, ma non hanno la capacità di agire con intelligenza per arrivare al risultato (come farebbe una persona).

In futuro, come dicevo, i modelli diventeranno sempre migliori, le tecnologie miglioreranno per renderli più affidabili ed efficienti, ma rimarranno strumenti (sempre più potenti) in grado di accelerare processi.

L'intervista completa su About Bologna:

L’IA può ridefinire la cultura? - *About Bologna
«L’intelligenza artificiale può portare grandi benefici, ma può anche segnare la fine dell’umanità», ha detto lo scienziato Steven Hawkings. Verità o catastrofismo? Dal 2014 quando pronunciò questa frase, sono passati 10 anni. La comunità tecnologica…

L'ottimizzazione delle performance del LLM

In una ricerca di Meta, Cisco e MIT, emerge come, eliminando fino al 40-50% degli strati di un LLM l'impatto sull'accuratezza è risultato inferiore alle aspettative.

Il processo di riduzione degli strati va a selezionare quelli meno importanti e ridondanti, per procedere progressivamente con quelli che influiscono minimamente nell'output.
Dopo la "potatura", i modelli sono stati affinati per recuperare performance, mostrando che è possibile ridurre i requisiti di memoria e calcolo mantenendo un'alta accuratezza, il che indica che potremmo non aver bisogno di modelli così grandi e complessi come pensavamo.

L'ottimizzazione dei LLM - La ricerca di ricerca di Meta, Cisco e MIT
L'ottimizzazione dei LLM - La ricerca di ricerca di Meta, Cisco e MIT
In sostanza, questo studio suggerisce che i modelli di AI potrebbero essere resi più efficienti e meno costosi, aprendo la strada a un'intelligenza artificiale più veloce e accessibile.

AI Index Report 2024

Stanford University ha pubblicato il consueto AI Index Report per il 2024.

I take away

  1. L'AI batte gli umani in alcuni compiti come la classificazione delle immagini e il ragionamento visivo, ma resta indietro su compiti più complessi.
  2. L'industria continua a dominare la ricerca sull'AI, con 51 modelli rilevanti rilasciati, contro i 15 del mondo accademico (nel 2023).
  3. I modelli diventano molto più costosi. Secondo il report, l'addestramento di GPT-4 è costato 78M di dollari, mentre Gemini Ultra 191M di dollari.
  4. Gli USA sono in testa nello sviluppo di modelli di AI, rispetto a Cina, Europa e UK.
  5. Mancano sistemi di valutazione e standardizzazione per lo sviluppo responsabile dell'AI.
  6. Gli investimenti in AI Generativa salgono alle stelle, ottuplicando nel 2023 quelli del 2022.
  7. L'AI rende i lavoratori più produttivi e migliora la qualità dei risultati, andando anche a colmare il gap di competenze. Ma senza un'adeguata supervisione può avere un effetto contrario.
  8. Il progresso scientifico accelera ulteriormente grazie agli algoritmi.
  9. Il numero di normative sull'AI è in forte aumento negli USA.
  10. Le persone sono più consapevoli dell'impatto dell'AI, e questo crea nervosismo in un gruppo significativo.

[RISORSA] Ricerca di video su YouTube e produzione contenuti con Gemini 1.5 Pro

Il seguente Colab implementa un agente AI che permette di specificare un argomento ed esegue le seguenti operazioni:
1️. seleziona i migliori video di YouTube;
2️. estrae l'audio;
3️. genera una sintesi di ogni contenuto;
4️. crea un report complessivo.

Utilizza SerpAPI e Gemini 1.5 Pro, e i prompt per il modello possono essere personalizzati.

Il progetto

GitHub - mshumer/ai-researcher
Contribute to mshumer/ai-researcher development by creating an account on GitHub.

[RISORSA] Guide ed esempi di prompt per Gemini

Una raccolta di guide ed esempi per iniziare a lavorare con le API di Gemini.

Dalla repository si possono usare direttamente i Colab per ogni tipo di utilizzo, con la possibilità di personalizzare i prompt.

Elaborazione audio, tokenizer, embeddings, gestione file, function calling, tuning, gestione video, e molto altro.

GitHub - google-gemini/cookbook: A collection of guides and examples for the Gemini API.
A collection of guides and examples for the Gemini API. - google-gemini/cookbook

Gemini Code Assist

Con Gemini Code Assist Google prova a contrastare Microsoft e GitHub Copilot.

Anche se si integra su Visual Studio, la vedo durissima, visto che l'editor è di Microsoft.

Probabilmente l'unico vantaggio attuale è la finestra di contesto più ampia.. ma quanto durerà?

Gemini Code Assist (in precedenza Duet AI per gli sviluppatori)
Assistente con AI generativa per aiutare gli sviluppatori a creare applicazioni in modo più rapido, efficace e sicuro.

E non poteva mancare la consueta confusione sul nome delle soluzioni da parte di Google.. Gemini Code Assist, Duet AI for developers.. vi prego, fate pace con il naming!

Gemini Code Assist - Google
Gemini Code Assist - Google

VertexAI Agent Builder

Lo sviluppo di applicazioni basato sul concetto di interazione tra "agenti" sembra essere la direzione nello sviluppo di sistemi strutturati.
La soluzione di Google Cloud prende il nome di VertexAI Agent Builder.

Build generative AI experiences with Vertex AI Agent Builder | Google Cloud Blog
Announcing Vertex AI Agent Builder: Helping developers easily build and deploy generative AI experiences.

Come funziona? Diciamo che si tratta della risposta a GPTs e API Assistants di OpenAI. Le funzionalità sono praticamente le stesse: RAG (Retrieval-Augmented Generation), esecuzione di codice, ricerca online, interazione con servizi esterni.

Google conferma il perenne stato di "rincorsa" che lascia sempre una sensazione di frammentarietà rispetto alle integrazioni dei competitor (di Microsoft, ad esempio).

Grok 1.5 V

X.ai ha rilasciato Grok 1.5 V, un nuovo modello multimodale in grado di gestire un contesto composto da testo e immagini.
Nei principali benchmark sembra molto vicino a modelli come GPT-4 e Claude 3 Opus.

Sarà interessante capire se Grok verrà proposto in modalità open source!

Un approccio equilibrato nell'uso dei dati sintetici nella ricerca scientifica

Un articolo di Nature assolutamente da leggere.

Mette in guardia sulla tendenza di considerare i modelli di AI come soluzioni omnicomprensive, sottolineando l'importanza di un approccio equilibrato che integri dati sintetici e reali, mantenendo la ricerca scientifica radicata nel "mondo reale" e nell'indagine empirica.

I dati sintetici possono essere una risorsa preziosa, in contesti in cui i dati reali sono incompleti o costosi da raccogliere.

Ma l'interpretazione va fatta con equilibrio. Il rischio di alimentare i modelli con dati generati è di spingersi verso un ciclo di conferma invece di avere una vera innovazione.

The perpetual motion machine of AI-generated data and the distraction of ChatGPT as a ‘scientist’ - Nature Biotechnology
Nature Biotechnology - The perpetual motion machine of AI-generated data and the distraction of ChatGPT as a ‘scientist’

Estrazione di dati da file audio e video

Estrazione di dati da file audio e video usando Gemini 1.5 Pro attraverso LangChain?

Estrazione di dati da file audio e video

La documentazione

Audio/Video Structured Extraction | 🦜️🔗 Langchain
Google’s Gemini API offers support for audio and video input, along with function calling.

Adobe avrebbe addestrato Firefly con immagini generate attraverso altri modelli

Il tema dei dati di training dei modelli generativi diventa sempre più intricato e fuori controllo.

Bloomberg ha pubblicato un post che denuncia il fatto che Adobe avrebbe addestrato Firefly con immagini generate attraverso altri modelli, come Midjourney.

L'azienda ha sempre promosso il suo progetto come "commercialmente sicuro" facendo leva su un addestramento derivante dalle immagini di Adobe Stock.

Adobe’s ‘Ethical’ Firefly AI Was Trained on Midjourney Images
Company promotes its tool as safe from content scraped from the internet.
Ma gli utenti possono caricare immagini generate dall'AI su Adobe Stock.. quindi..

È sempre più chiaro (oppure no!?) che è davvero necessario accelerare questa discussione a livello globale?


Trasformazione dei segnali neurali in parlato (ECoG-to-speech)

Un nuovo paper pubblicato su Nature presenta un sistema che trasforma i segnali neurali in parlato (ECoG-to-speech).

Viene usata una rappresentazione intermedia a bassa dimensione guidata da un pre-addestramento basato sul solo segnale vocale.
Nel video si sente il confronto tra il parlato originale e quello generato dal modello che codifica i segnali neurali.

Trasformazione dei segnali neurali in parlato (ECoG-to-speech)

Immaginiamo le applicazioni di queste tecnologie in ambito di deficit neurologici.

A neural speech decoding framework leveraging deep learning and speech synthesis - Nature Machine Intelligence
Recent research has focused on restoring speech in populations with neurological deficits. Chen, Wang et al. develop a framework for decoding speech from neural signals, which could lead to innovative speech prostheses.

Nel testo è disponibile anche una pipeline di decodifica neurale aperta, su GitHub.


GPT-4 Turbo esce dalla preview

GPT-4 Turbo esce dalla preview e diventa disponibile (anche con Vision) in versione stabile via API.
Questa è una buona notizia per chi ha automazioni in produzione, perché i costi possono scendere in modo importante.

GPT-4 Turbo esce dalla preview
GPT-4 Turbo esce dalla preview
Ma attenzione: consiglio di verificare gli output prima di switchare, perché dai miei test il comportamento è leggermente diverso.

Come funziona ChatGPT? Una spiegazione dettagliata

Per chi vuole approfondire in dettaglio il funzionamento di ChatGPT, spiegato in modo semplice e passo dopo passo, consiglio questo post.

Le dinamiche possono essere estese a qualunque LLM.

È un post lungo, ma affascinante.. che permette di acquisire una consapevolezza maggiore di questi sistemi.

What Is ChatGPT Doing … and Why Does It Work?
Stephen Wolfram explores the broader picture of what’s going on inside ChatGPT and why it produces meaningful text. Discusses models, training neural nets, embeddings, tokens, transformers, language syntax.

Generalizzazione dei concetti dei LLM: uno studio

I modelli generativi sono abili a generalizzare i concetti al di fuori della dimensione di addestramento? In realtà NO.. è "solo" questione di quantità di dati di training.
Lo studio presenta diversi test che mostrano come le performance "zero-shot" dei modelli aumentano linearmente con un aumento esponenziale dei dati.

E chiaramente la capacità dei modelli migliora grazie anche alla presenza di dati simili ai test nei dataset di addestramento.

Torniamo su un concetto che ho raccontato all'AI Festival:

Prima o poi, la sete di dati di questi sistemi supererà ciò che è disponibile. Se vogliamo spingerci verso qualcosa che si avvicina maggiormente al concetto di AGI (Artificial General Intelligence), probabilmente servono approcci algoritmici alternativi.
No “Zero-Shot” Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance
Web-crawled pretraining datasets underlie the impressive “zero-shot” evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of “zero-shot” generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during “zero-shot” evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting “zero-shot” generalization, multimodal models require exponentially more data to achieve linear improvements in downstream “zero-shot” performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the “Let it Wag!” benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to “zero-shot” generalization capabilities under large-scale training paradigms remains to be found.
Non basterà aumentare le dimensioni dei
modelli e aumentare la potenza di calcolo.

Universal-1: il modello di speech recognition più performante

Sembra che Universal-1 di Assembly AI sia il modello di speech recognition più performante esistente.
Addestrato su 12,5 milioni di ore di audio multilingua, è più accurato del 14% rispetto a Whisper e del 22% rispetto alle API di Azure, AWS e Google.

Universal-1 di Assembly AI: error rate
Universal-1 di Assembly AI: error rate
Può trascrivere un audio di 1 ora in 38 secondi!
AssemblyAI Research | Building the world’s leading Speech AI models
Explore AssemblyAI’s current research, news, and updates on Speech AI technology.

Perplexity-Inspired LLM Answer Engine

Perplexity, di fatto, è un motore conversazionale: un ibrido che unisce un motore di ricerca e un LLM. Il concetto è semplice.

Questo progetto permette di creare un sistema molto simile, attraverso Groq, Mistral, LangChain, Brave, Serper API e OpenAI.

Il sistema restituisce fonti, risposte, immagini, video e domande di follow-up basate sulle query degli utenti.

GitHub - developersdigest/llm-answer-engine: Build a Perplexity-Inspired Answer Engine Using Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper
Build a Perplexity-Inspired Answer Engine Using Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper - developersdigest/llm-answer-engine
Un ottimo punto di partenza per chi vuole avere una base di sviluppo evoluta di un motore conversazionale.

L'investimento nei chip Nvidia per il training dei modelli generativi

In una recente presentazione, la società di venture capital Sequoia ha stimato che l’industria dell'AI ha speso 50 miliardi di dollari sui chip Nvidia utilizzati per addestrare modelli di intelligenza artificiale avanzati lo scorso anno, ma ha generato entrate solo per 3 miliardi di dollari.

Investimenti "normali" per costruire la base per competere.. ma quanto durano le GPU per mantenere la competitività? Inoltre manca il consumo energetico nell'equazione.
Inoltre..

l'uso del calcolo per l'inferenza aumenterà vertiginosamente rispetto al training.
L'investimento nei chip Nvidia per il training dei modelli generativi
L'investimento nei chip Nvidia per il training dei modelli generativi

Di certo, la sfida è interessante. E l'ottimizzazione degli algoritmi sarà una leva fondamentale.


VoiceCraft: editing e sintesi vocale

VoiceCraft è un nuovo modello con due funzionalità: editing vocale per modificare l'audio, e sintesi vocale zero-shot per generare parlato dalle trascrizioni usando solo pochi secondi di audio di riferimento.

VoiceCraft: editing e sintesi vocale
VoiceCraft: editing e sintesi vocale

Gli esempi nel paper rendono molto bene l'idea del livello di che oggi si raggiunge quasi con semplicità.

VoiceCraft
VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
Mi sembra ieri quando usavo "Festival" come TTS per il progetto della tesi.. sono passati diversi anni, oggi sembra tutto banale, ma per me è sempre strabiliante.

Meta etichetterà i video generati attraverso l'AI

"Additional transparency is
better than censoring content"

Meta, come YouTube, etichetterà i video generati ed editati attraverso l'AI con la label "Made with AI".
Verranno rilevati automaticamente meta dati, e le persone avranno l'opzione per specificarlo in fase di caricamento.

L'approccio mi trova d'accordo: la label è molto più "formativa" della censura. Questo può contribuire ad alzare il livello di cultura generale sull'AI generativa.

Our Approach to Labeling AI-Generated Content and Manipulated Media | Meta
We will begin labeling a wider range of video, audio and image content as “Made with AI” when we detect industry standard AI image indicators or when people disclose that they’re uploading AI-generated content.

Inizialmente le piattaforme non riusciranno a etichettare tutto precisamente, ma nel tempo impareranno a farlo. E questa può essere una chiave vincente contro l'uso malevolo di questi sistemi.


Stable Audio 2.0: generazione di audio di qualità

Stability AI ha rilasciato Stable Audio 2.0: un modello in grado di generare tracce musicali di alta qualità. Fino a 3 minuti di audio a 44,1KHz.

È stata aggiunta la possibilità di usare prompt multimodali che comprendono un audio in input per integrare il contesto.
Il modello è stato addestrato su un dataset concesso in licenza da AudioSparx, e incorpora un sistema di riconoscimento per evitare eventuali violazioni di copyright.

Stable Audio 2.0 di Stability AI
Stable Audio 2.0 di Stability AI
Un altro grande passo in avanti per la generazione dell'audio.

GPT-3.5 Turbo diventa utilizzabile per il fine-tuning

OpenAI estende le funzionalità di fine-tuning con GPT-3.5 Turbo per dare la possibilità ai brand di creare modelli più aderenti a specifici domini.

Tra le novità troviamo la creazione di checkpoint per ogni epoch, un playground comparativo per valutare le performance dei modelli, integrazioni con piattaforme di terze parti, metriche di valutazione sull'intero dataset di training, configurazione degli iperparametri.

Introducing improvements to the fine-tuning API and expanding our custom models program
We’re adding new features to help developers have more control over fine-tuning and announcing new ways to build custom models with OpenAI.

Hanno annunciato anche un nuovo programma di fine-tuning assistito, con supporto di un team di esperti.


[RISORSA] Un Colab per generare prompt evoluti

Anthropic, nella documentazione, fornisce un Colab Notebook per la generazione di prompt evoluti.
Si tratta di un sistema efficace, ma anche molto semplice. Più utile ad acquisire nozioni in ambito di prompt engineering, rispetto all'utilizzo diretto.

Una volta compresa la tecnica, si possono creare prompt molto migliori di quelli che genera il tool. Ma rimane un'ottima base di partenza.

Un Colab per generare prompt evoluti
Un Colab per generare prompt evoluti

Il metodo è perfettamente estendibile a qualunque modello di linguaggio.


ChatGPT e la nuova indicazione delle fonti

ChatGPT migliora l'indicazione delle fonti dalle quali estrae le risposte attraverso la navigazione.
Lo annuncia OpenAI con un post su X, ed ecco alcuni esempi.


[RISORSA] Un censimento in continuo aggiornamento di tutti i modelli generativi

Ecosystem Graphs di Stanford è una raccolta in continuo aggiornamento che tiene traccia di tutti i modelli generativi con i riferimenti e le caratteristiche.

La versione tabellare è comoda per la consultazione, mentre il grafo mette in evidenza le relazioni tra modelli, dataset, applicazioni.

LLM e sicurezza: many-shot jailbreaking

Anthropic ha pubblicato una ricerca dal titolo "Many-shot jailbreaking" che mette in evidenza una tecnica che sfrutta le ampie finestre di contesto dei modelli per eludere le misure di sicurezza.

LLM e sicurezza: many-shot jailbreaking (Anthropic)
LLM e sicurezza: many-shot jailbreaking (Anthropic)
Il principio è semplicissimo: più esempi (shot) vengono forniti al modello nel prompt, e più è possibile influenzarne il comportamento.. ecco perché aumentando la finestra di contesto, possono aumentare anche i rischi.

La tecnica è efficace sui modelli di Anthropic e di altre aziende, e implica l'uso di grandi quantità di testo in configurazioni specifiche per indurre i modelli a generare risposte potenzialmente dannose, nonostante siano addestrati per evitarlo.

La ricerca evidenzia la necessità di sviluppare strategie di mitigazione per affrontare questa vulnerabilità, sottolineando come anche miglioramenti apparentemente positivi nei modelli di AI possono avere conseguenze impreviste.

Many-shot jailbreaking
Anthropic is an AI safety and research company that’s working to build reliable, interpretable, and steerable AI systems.

Modifica delle immagini generate su ChatGPT

Nell'interfaccia di ChatGPT è stata integrata la nuova funzionalità di inpainting per le immagini generate.
Aprendo l'immagine generata, è possibile selezionare un'area e modificarla attraverso un prompt testuale.

La modifica interesserà solo la selezione.


Claude 3 Opus: test nello sviluppo software

È stato selezionato uno dei test del benchmark "SWE-Bench", che contiene un'estrazione di problemi reali presenti su GitHub.

In 4 minuti, con 37,5k token in input e 2,8k token in output, il modello ha condotto alla risoluzione del problema.
La stima di risoluzione per uno sviluppatore è di 2-8 ore.

Cosa fa capire tutto questo? Che questi sistemi, integrati negli editor, possono aiutare a migliorare le performance in modo importante.

Test di Claude 3 Opus in ambito dello sviluppo software

Ma NON SOLO.. Possono stimolare la creatività nelle persone, e portare a nuove soluzioni che non si sarebbero mai implementate.

- GRAZIE -

Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂