Generative AI: novità e riflessioni - #1 / 2024

Un appuntamento per aggiornarsi e riflettere sulle tematiche che riguardano l'intelligenza artificiale e la Generative AI.

Generative AI: novità e riflessioni - #1 / 2024
Generative AI: novità e riflessioni - #1 / 2024

Spesso mi vengono chiesti dei suggerimenti per mantenere un livello di aggiornamento adeguato sulle tematiche che riguardano l'Intelligenza Artificiale. Non è semplice, vista l'accelerazione, lo so bene.

Proprio per questo, ho ideato una rubrica che ripercorre le novità più rilevanti con qualche riflessione, e questo è il primo appuntamento.

Buon aggiornamento,
e buone riflessioni..

Le novità dalla Generative AI e qualche riflessione

OpenAI ha rivoluzionato il settore un anno fa, e nell'ultima conferenza per sviluppatori ha mostrato delle possibilità incredibili che andranno a cambiare per sempre la creazione di contenuti, la UX, e non solo. Ma OpenAI è solo una parte dello scenario.

Quello che segue è il mio intervento alla Bologna Tech Week (Search Marketing Connect) di dicembre, in cui cerco di dare una visione e un ordine su tutti questi aspetti.

Search Marketing Connect 2023


AI ACT + Azione del Garante della Privacy nei confronti di OpenAI

Condivido due risorse interessanti per chi vuole aggiornarsi, chiarire e riflettere su due tematiche "calde" legate all'intelligenza artificiale.

AI ACT

Luciano Floridi e diversi ospiti intervengono e dialogano sulla regolamentazione dello sviluppo che riguarda l'intelligenza artificiale.

Le regole - Ep. 1
L’intelligenza artificiale e le regole utili a governarla. Scopriamo cosa si intende per A.I. e come i governi stanno cercando di massimizzare i vantaggi e ridurre i rischi della nuova tecnologia. Con Giuseppe De Bellis e Luciano Floridi,
"Ogni scoperta porta con sé grandi inquietudini collettive, ma altrettante opportunità".

Notifica del Garante della Privacy a OpenAI: l'atto di contestazione per le violazioni alla normativa privacy

Matteo Flora e l'avv. Giuseppe Vaciago chiariscono il tema e discutono sulla recente azione.

Il Garante ancora contro ChatGPT? - Matteo Flora


Come usare diversi GPTs nella stessa chat di ChatGPT

Come possiamo usare diversi GPTs che elaborano i dati nella stessa chat su ChatGPT?  Semplicemente taggando il GPT che ci serve nel prompt con il carattere "@". 

GPT mentions

Nell'esempio, uso il GPT di "Link Reader" per estrarre link dalla SERP, e successivamente quello di "WebPilot" per elaborarne il contenuto.

Il mio dubbio sui GPTs è stato risolto. Direi che ora sono sovrapponibili ai plugin, i quali non dureranno a lungo.

Il futuro dell'AI è neuro-simbolico?

Durante il WMF 2023 dissi che forse una via per l'AI del futuro sarà il ricongiungimento delle due teorie dalle quali ha preso vita: le reti neurali e i sistemi simbolici.  Per puntare a un'AI veloce, scalabile e in grado di astrarre, ma anche solida nel rappresentare i fatti e il ragionamento. 

AlphaGeometry, il sistema che recentemente ha risolto difficili problemi matematici (livello scuola superiore), è esattamente questo: un sistema "neuro-simbolico".  

La combinazione del ragionamento speculativo neurale con la conoscenza logica strutturata promette sistemi integrati che pensano in modo flessibile e rigoroso. Questa fusione offre un percorso solido per coltivare un ragionamento automatizzato a tutto tondo, simile a quello umano.
Solving olympiad geometry without human demonstrations - Nature
A new neuro-symbolic theorem prover for Euclidean plane geometry trained from scratch on millions of synthesized theorems and proofs outperforms the previous best method and reaches the performance of an olympiad gold medallist.

Code Llama 70B

Meta ha rilasciato Code Llama 70B: un nuovo sistema più performante per la generazione di codice basato su LLM.

Ha una versione specifica per Python, e le prestazioni sono tra le più elevate rispetto agli altri modelli di questo tipo.

Ottiene un punteggio di 67,8 su HumanEval.
Introducing Code Llama, a state-of-the-art large language model for coding
Code Llama, which is built on top of Llama 2, is free for research and commercial use.

Google Bard (Gemini Pro) migliora

Non me lo sarei mai aspetto, ma Bard, equipaggiato con Gemini Pro, balza al secondo posto della "LLM Arena Leaderboard" (una delle classifiche più attendibili per i modelli).

Ho fatto alcuni test ultimamente, con prompt evoluti che uso con GPT-4 e ho ottenuto risposte ottime e veloci.

Fino a qualche giorno fa, in questa classifica, OpenAI era nelle prime 3 posizioni. Sono contento che Google rientri in pista.

Cosa dovremo aspettarci dalla versione Ultra? Gli altri non staranno a guardare, comunque.
Gemini di Google: LLM Arena Leaderboard

InstantID: generazione di immagini preservando i tratti delle persone

InstantID è una nuova soluzione per la generazione delle immagini preservando i tratti delle persone, analizzando una sola immagine facciale.

Si basa su un modello di diffusione, e si integra con modelli pre-addestrati, come Stable Diffusion XL.

Supera le tecniche precedenti in termini di fedeltà e adattabilità dello stile, senza richiedere un'intensa messa a punto.
GitHub - InstantID/InstantID: InstantID : Zero-shot Identity-Preserving Generation in Seconds 🔥
InstantID : Zero-shot Identity-Preserving Generation in Seconds 🔥 - GitHub - InstantID/InstantID: InstantID : Zero-shot Identity-Preserving Generation in Seconds 🔥

Modelli di linguaggio: cosa sono, perché se ne parla tanto e che futuro avranno

In un'intervista su La Repubblica racconto i modelli di linguaggio (LLM).
Che impatto avranno? Quali sono i rischi? Perché l'open source rappresenta una via interessante? Che differenza c'è tra i vecchi chatbot e le nuove tecnologie?

"..i modelli generativi offriranno strumenti sempre più avanzati integrati nei flussi operativi per la ricerca e l’elaborazione dei dati, e per ottenere automazioni sempre più profonde".
Modelli di linguaggio: cosa sono, perché se ne parla tanto e che futuro avranno
I modelli di linguaggio di grandi dimensioni sono diffusi e ampiamente usati. Offrono vantaggi, non sono privi di sfide e inside ma, come insegna GPT-4, il lor…

Novità importanti per OpenAI

OpenAI introduce nuovi sviluppi che riguardano i modelli e le API.

  • GPT-3.5 Turbo migliora e verranno ridotti i costi (-50% per i token in input e -25% per l'output).
  • Finalmente arrivano 2 nuovi modelli di embeddings, più performanti e a costi minori.
  • GPT-4 Turbo ottimizza la generazione del codice e la tendenza alla "pigrizia".
  • Migliorano le API di moderazione.
  • Finalmente il monitoraggio del consumo delle API è stato ampliato: ora è possibile controllare i costi per progetto.
Segnali di maturità dello stack tecnologico e di obiettivi di miglioramento non solo orientato alle performance.
New embedding models and API updates
We are launching a new generation of embedding models, new GPT-4 Turbo and moderation models, new API usage management tools, and soon, lower pricing on GPT-3.5 Turbo.

26 principi per migliorare le performance dei Large Language Model (LLM)

Come si possono migliorare le performance di un LLM fino al 50%? Questo nuovo paper mostra 26 principi da seguire.
I test sono stati eseguiti su LLaMA-1/2 (7B, 13B e 70B) e GPT-3.5/4.

Basta per ottenere ottimi risultati? NO, serve tanta sperimentazione. E la prova è il fatto che nei prompt delle automazioni in produzione che usiamo in azienda, applichiamo già quasi tutti questi principi con dei precisi schemi, ottenuti grazie a una grande quantità di test.
Va ricordato, inoltre, che i dati di contesto sono un elemento determinante per ottenere performance elevate.
GitHub - VILA-Lab/ATLAS: A principled instruction benchmark on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171
A principled instruction benchmark on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 - GitHub - VILA-Lab/ATLAS: A principled…

La Generative AI nel video editing

Un esempio di editing video in cui vengono inseriti elementi crearti attraverso l'AI Generativa. Tutto il processo avviene con After Effects. Midjourney e Runway Gen 2 vengono usati per creare Voldemort nella parte finale e per il cielo.

L'AI Generativa, integrata nei processi di produzione, permette di mantenere il focus nelle parti principali, generando il contorno (che comunque richiederebbe grande effort).

Editing: Eric Del Aguila.

La Generative AI nel video editing


LLM-as-a-Judge

Gli approcci attuali, comunemente, addestrano modelli di ricompensa dalle preferenze umane. E questi modelli non migliorano durante il training.

In questo studio, viene usato il LLM come "giudice" per stabilire le ricompense durante il training.

Questo approccio su Llama 2 70B produce un modello che supera diversi sistemi molto noti (Claude 2, Gemini Pro e GPT4 0613) nella classifica AlpacaEval 2.0.

Si tratta di uno studio preliminare, ma si aprono nuove porte.

Self-Rewarding Language Models
We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study, this work opens the door to the possibility of models that can continually improve in both axes.

Un test di Mixtral 8x7b in confronto a GPT-4

Come si comporta Mixtral 8x7b rispetto a GPT-4 su un task di classificazione di contenuti e labeling?

I due output a confronto mostrano come Mixtral si difende benissimo, rispettando il formato dell'output e estraendo dati allineati al contenuto (una scheda di un tour guidato).

Mixtral è in esecuzione in locale, quindi, per un lavoro ampio, potrebbe rappresentare un buon risparmio sui costi.

Chiaramente i topic estratti sono diversi perché i modelli non hanno istruzioni specifiche su questo.

Un confronto tra Mixtral e GPT-4
Un confronto tra Mixtral e GPT-4

Finalmente un progetto italiano per la creazione di un LLM

Ne parlavamo proprio durante il Search Marketing Connect a dicembre.
Mi fa davvero piacere. Ho alcuni dubbi sulle performance a confronto con i competitor noti. La questione AI Act (in riferimento al post de Il Sole 24 Ore) è interessante e importantissima, ma le prestazioni..

Ma questo lo scopriremo insieme.
Cineca e iGenius insieme: nasce la prima Intelligenza Artificiale generativa italiana
La nuova tecnologia, promette il fondatore Uljan Sharka, sarà disponibile prima dell’estate. Il training fatto sul supercalcolatore Leonardo, a Bologna

Stable LM 2 1.6B di Stability AI

Un equilibrio tra velocità e prestazioni..

Stability AI ha lanciato Stable LM 2 1.6B, un LLM di piccole dimensioni open source dalle performance elevate.
Saranno disponibili anche i dettagli sui dati, che saranno a disposizione per altri modelli.

Grazie a questi modelli, le aziende potranno sviluppare sistemi custom di qualità a costi ridotti, ma attenzione alla sicurezza!
Introducing Stable LM 2 1.6B — Stability AI
Today, we are introducing our first language model from the new Stable LM 2 series: the 1.6 billion parameter base model and an instruction-tuned version.

Gemini a servizio di Google Ads

Google mette a disposizione Gemini per un assistente che potrà aiutare a creare campagne su Ads.
Un chatbot in piattaforma che può generare headlines, description e immagini in base agli URL di riferimento.

L'AI Generativa è sempre più integrata nelle piattaforme, su applicazioni semplici, ma che possono ridurre sensibilmente l'effort e migliorare le performance.
Put Google AI to work with Search ads
The conversational experience in Google Ads is now powered by Gemini and beta access is rolling out to all English language advertisers.

Mamba: un nuovo approccio più efficiente e scalabile

Dopo la fase crescita, forse è
arrivato il tempo dell'efficienza.

Mamba rappresenta un significativo passo in avanti nel campo dell'AI, offrendo un approccio più efficiente e scalabile per l'elaborazione di sequenze di dati.

Perché è innovativo? A differenza dei modelli Transformer, che tendono a trattare ogni parte di una sequenza come egualmente importante, Mamba può selezionare le parti più rilevanti.

Questo lo rende efficiente anche su sequenze molto lunghe.

L'evoluzione dei modelli significa performance migliori, ma anche riduzione dell'effort computazionale e dei consumi.
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Foundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolution and recurrent models, and structured state space models (SSMs) have been developed to address Transformers’ computational inefficiency on long sequences, but they have not performed as well as attention on important modalities such as language. We identify that a key weakness of such models is their inability to perform content-based reasoning, and make several improvements. First, simply letting the SSM parameters be functions of the input addresses their weakness with discrete modalities, allowing the model to selectively propagate or forget information along the sequence length dimension depending on the current token. Second, even though this change prevents the use of efficient convolutions, we design a hardware-aware parallel algorithm in recurrent mode. We integrate these selective SSMs into a simplified end-to-end neural network architecture without attention or even MLP blocks (Mamba). Mamba enjoys fast inference (5$\times$ higher throughput than Transformers) and linear scaling in sequence length, and its performance improves on real data up to million-length sequences. As a general sequence model backbone, Mamba achieves state-of-the-art performance across several modalities such as language, audio, and genomics. On language modeling, our Mamba-3B model outperforms Transformers of the same size and matches Transformers twice its size, both in pretraining and downstream evaluation.

L'innovazione di Rabbit R1

Sto leggendo molti commenti su Rabbit R1. Un aspetto, secondo me, non è passato in modo esaustivo.

La vera innovazione non è l'assistente personale più evoluto. È il fatto che usa la "visione" per apprendere l'utilizzo di qualunque software!

La UI diventa il mezzo per far usare i sistemi ai modelli. Questo è inaspettato e straordinario.

Lasciate stare il device nelle considerazioni: si tratta di un'appendice (molto interessante, però). Potrebbe essere sostituita da un'app? Secondo me sì, ma è il concetto l'aspetto innovativo.
Rabbit R1
Rabbit R1

Prompt Generator for Images

In occasione della seconda edizione del seminario "AI per Agenzie e Team Digital" ho creato un GPT Custom in grado di guidare alla creazione di prompt per la generazione di immagini.

Puoi provarlo e usarlo gratuitamente.

ChatGPT - Prompt Generator for images
Genero prompt per i modelli di generazione delle immagini, per aiutarti a usare i modelli Text-To-Image

La direzione di Meta in ambito AI

Zuckerberg parla della direzione di Meta in ambito di AI: creare una general intelligence e renderla open source in modo responsabile, in modo che tutti possano trarne vantaggio.

Stanno addestrando Llama3 e creando un'infrastruttura di elaborazione impressionante: arriverà ad avere 600k H100 (GPU Nvidia).

Un progetto ambizioso, soprattutto per il fatto che viene messo in chiave open source.
Zuckerberg parla della direzione di Meta in ambito di AI
Zuckerberg parla della direzione di Meta in ambito di AI

Perplexity e Rabbit: una nuova partnership

Mancava solo l'ufficialità della partnership tra Perplexity e Rabbit. Eccola!

Perplexity alimenterà le risposte di Rabbit R1, il sistema che probabilmente è stata la rivelazione del CES 2024.

Gemini Pro di Google sul nuovo Samsung S24

L'AI Generativa verrà integrata su ogni piattaforma.. l'ho detto spesso ultimamente. Ed ecco Gemini Pro di Google sul nuovo Samsung S24.
Applicato a nuovi modi di effettuare ricerche, sintesi automatiche delle comunicazioni mentre si è alla guida e delle registrazioni vocali, editing delle immagini.

Mentre Microsoft porta Copilot su Windows, Google è pronta allo stesso passo su Android.
La potenza dell’IA di Google arriva sulla nuova serie Samsung Galaxy S24
Da Android alla Ricerca Google, passando per Android Auto e altro ancora: la collaborazione di Google con Samsung apre a nuove potenzialità grazie all\u0027intelligenza artif…

Circle to Search e AI-Powered Multisearch di Google

Google presenta due nuove modalità di ricerca: Circle to Search e AI-Powered Multisearch.
In qualunque schermata, su Android, sarà possibile cerchiare un elemento e avviare una ricerca per quell'elemento.

Alla ricerca multimodale di Multisearch viene aggiunta SGE (Search Generative Experience) nelle risposte.
La multimodalità è la direzione verso la quale tutte le interfacce si stanno dirigendo. Di fatto consente esperienze non attuabili in altre modalità.

New ways to search in 2024
We’re launching Circle to Search and an AI\u002Dpowered multisearch experience to help you search even more naturally.

La direzione dello sviluppo di OpenAI

In che direzione sta andando lo sviluppo di OpenAI? Altman lo racconta a Gate.
Non ci sono grandi sorprese..

  • Multimodalità (inclusi input audio e video),
  • Miglioramento del "ragionamento" e dell'affidabilità,
  • Interazione con dati degli utenti (e-mail, calendari, ecc.) per personalizzare l'esperienza.

Due elementi importanti emergono oltre i tecnicismi: la necessità di regolamentazione (non è importante solo per gli utenti, ma anche per chi sviluppa i modelli) e la proiezione di riduzione dei costi dei modelli e dei servizi.

GPT-5 in arrivo?

Bill Gates e Sam Altman


LLM e sicurezza

Un interessante studio di Anthropic mostra come un modello può essere addestrato ad essere ingannevole.
È abbastanza chiaro: il modello "genera" seguendo delle istruzioni, e se le istruzioni sono precise, verranno eseguite.

Se si sperimenta con i GPTs e con i system prompt si può toccare facilmente con mano la resistenza nel rispettare il training. Di fatto, l'obiettivo è proprio questo.

È sempre più chiaro che servono sistemi per mettere in ordine e governare tutto questo.
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoor behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoor behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.

I modelli Text-To-3D

I modelli Text-To-3D si evolvono costantemente. Nel video si vede un mio test usando Genie di Luma Labs.
Il sistema usa una rete neurale in grado di trasformare un prompt testuale in un oggetto 3D, scaricabile in diversi formati modificabili con qualunque editor.

Questi sistemi potrebbero avere risvolti importanti in settori come l'e-commerce e l'AR.

Genie di Luma Labs


L'intelligenza artificiale può essere creativa?

Gli algoritmi possono aiutarci a uscire dai nostri schemi, perché possono agire privi dei bias che ci condizionano.
Se questo rientra nel concetto di "creatività", allora sì, l'AI può essere creativa.

Questo è straordinario e facilmente comprensibile in ambito scientifico. Ma andiamo in tilt quando dal concetto di creatività scivoliamo nell'ambito artistico.

Propongo un ulteriore esperimento oltre a quelli descritti nel post de Il Sole 24 Ore.

Supponiamo che esca un nuovo disco di Elvis Presley generato dall'AI. Tecnicamente migliore di tutti quelli creati dall'artista.
I fan lo amerebbero? Probabilmente NO.
Perché l'arte non è solo nell'estetica dell'output, ma è anche nella consapevolezza del percorso che fa arrivare all'output.
L’intelligenza artificiale può essere creativa? Perché non ci sono certezze
Che cosa si intende per “creatività”? Sappiamo forse decidere che cosa sia “creativo” nel caso umano, ma non abbiamo alcuna idea di quali norme applicare all’intelligenza artificiale

Audiobox di Meta

Meta ha pubblicato una demo di Audiobox, il modello dedicato alla generazione di audio.
Il sistema produce gli output partendo da una combinazione di input vocali e testuali.

Siamo arrivando a livelli altissimi anche nel mondo audio.
Audiobox
Audiobox is Meta’s new foundation research model for audio generation. It can generate voices and sound effects using a combination of voice inputs and natural language text prompts.

Midjourney V6 + Runway Gen 2 + Live Action

In questo video, Dave Clark fa un uso dell'AI generativa che rispecchia la mia interpretazione di questo strumento (oggi).
Il video, infatti è realizzato in un mix di Midjourney V6, Runway Gen 2 e Live Action.

Immaginiamo solo di ridurre anche una piccola parte delle scene senza attori di un film o su un lavoro video di adv. Ovvero le scene meno importanti, ma che comunque costano.
Solo questo sarebbe un enorme risparmio, inoltre gli algoritmi consentono di fare una grande quantità di sperimentazione a basso costo.

GPT Store e Piano Team di Open AI

Benvenuto al GPT Store. Ora è possibile cercare e usare i GPTs pubblici. Rimaniamo in attesa della monetizzazione.
Nel frattempo puoi provare il mio GPT.

ChatGPT - Stats Blogger
Genero diagrammi partendo da frasi e citazioni estratte da studi di settore, per supportare blogger e Social Media Manager nell’arricchimento dei contenuti.

È disponibile il piano "Team" per ChatGPT, come upgrade della versione Plus, con funzionalità estese.
La parte più interessante riguarda il fatto che i dati delle conversazioni non verranno usate per il training del modello.


Rabbit R1: una delle novità più interessanti del CES 2024

Al CES è stato presentato un concetto davvero interessante, definito LAM (Large Action Model).
Si tratta di un sistema che comprende l'intento dell'utente (attraverso un LLM) ed è in grado di apprendere l'interfaccia di qualunque software per mettere in azione quell'intento, indipendentemente dalla piattaforma.

Hanno anche creato un sistema operativo (Rabbit OS) basato su questo concetto e addirittura un dispositivo dedicato, ad interazione vocale, in grado di rispondere a domande e di interagire con qualunque servizio.
La modalità di apprendimento delle operazioni custom è impressionante.

Se questo è il primo passo verso una nuova generazione di assistenti virtuali multimodali, beh.. sono molto colpito.
Qualche anno fa, quando sviluppai una Google Action che usava un LLM per dare risposte, pensai che questo sarebbe stato il futuro degli assistenti personali.. mancava solo una tecnologia adeguata. Anche oggi di certo è ancora acerba, ma.. diciamo che la via sembra promettente.

Rabbit R1: la presentazione


Modelli di linguaggio e dati: un discusso post del The Guardian

Ho letto diversi commenti a questo post del The Guardian..

  • Prima di tutto, il tema è la quantità di dati che questi modelli necessitano in fase di training per ottenere performance, quindi attenzione a interpretare bene il titolo.
  • Inoltre trovo che manchino sempre le domande fondamentali da porsi su questo tema.
  • Il problema è che l'output del modello generativo può violare il copyright? Oppure è anche il fatto che dati coperti da copyright vengono trattati per addestrare il modello a "comprendere" la semantica" degli input e a "scrivere" output sintatticamente corretti? Dati che comunque non vengono immagazzinati, ma sono solo utili ad affinare delle rappresentazioni vettoriali.
  • E se i modelli riproducono contenuti che violano il copyright, qual è la fonte? Il New York Times di turno, o il Common Crawl di turno? Oggi non è possibile rispondere a questa domanda.
  • E ancora.. infrange il copyright il modello che genera per mio conto un contenuto, o la responsabilità è mia se pubblico un contenuto creato dal mio "stagista-assistente"?
  • E ancora.. non riesco a immaginare un caso d'uso professionale che mi porterebbe a usare un LLM che genera un contenuto che riproduce un articolo del NYT (è solo un esempio). Esistono utilizzi molto più utili per i quali ha senso usare questa tecnologia.
Continuo a dirlo: è fondamentale trovare risposte a queste domande e trovare linee condivise globalmente per creare, addestrare e usare questi modelli e le architetture più evolute che verranno.
‘Impossible’ to create AI tools like ChatGPT without copyrighted material, OpenAI says
Pressure grows on artificial intelligence firms over the content used to train their products

Un motore di ricerca sfruttando Vertex AI

Come si può creare un motore di ricerca interno con Vertex AI Search?
È abbastanza semplice..

  • Si crea un'app all'interno del pannello di Vertex AI Search.
  • Si specificano gli URL sui quali effettuare la ricerca.
  • Si crea una pagina web con il widget all'interno.
  • Si distribuisce, localmente o pubblicamente attraverso un Cloud Storage Bucket.
Il post presenta una guida per eseguire gli step, ed è una soluzione davvero interessante.
Custom Search with Vertex AI Search
The easy way to get a web page with search scoped to your choice of URLs

Mixtral 8x7b su un Colab gratuito.. quanto sarebbe performante?

Ho provato a farlo, e nel video si può vedere la velocità: ho generato circa 330 token in poco più di 5 minuti.
Direi che è abbastanza lento, ma non è male per un sistema gratuito!

NOTA: nel Colab non uso le API, ma clono il modello che funziona direttamente nell'ambiente.

Il modello: https://mistral.ai/news/mixtral-of-experts/
Per fare dei test: https://github.com/dvmazur/mixtral-offloading

Mixtral 8x7b su un Colab gratuito


La discussione tra OpenAI e il Times continua

Secondo OpenAI, l'addestramento di modelli di AI utilizzando dati disponibili al pubblico nel web, inclusi articoli come quelli del Times, sarebbe "fair use".
"We view this principle as fair to creators, necessary for innovators and critical for U.S. competitiveness".

Tra quanto diventerà chiaro che non basta un tribunale per delineare la strada per il futuro di questa evoluzione tecnologica?
OpenAI claims New York Times copyright lawsuit is without merit | TechCrunch
OpenAI has published a public response to The New York Times’ lawsuit against it over copyright, claiming that the case is without merit.

E tutti sapevano che prima o poi avremmo dovuto attraversarlo.
Gary Marcus e Reid Southen stanno facendo un grande lavoro di documentazione e riflessione su questa tematica.

  • Il problema sollevato: i LLM sono in grado di riprodurre fedelmente contenuti protetti da copyright, anche senza prompt specifici.
  • Manca trasparenza sui dati di training da parte dei brand che sviluppano i modelli.
  • Si potrebbero ri-addestrare i modelli senza dati che violano il copyright, ma con quali costi?
  • Si potrebbero filtrare le richieste, ma sarebbe insufficiente e impreciso.
È davvero necessario affrontare queste sfide prima possibile per poter governare al meglio questa tecnologia.
Generative AI Has a Visual Plagiarism Problem
Experiments with Midjourney and DALL-E 3 show a copyright minefield

DocLLM: il modello di linguaggio di JPMorgan

JPMorgan ha lanciato DocLLM, un LLM in grado di elaborare documenti, fatture, documenti finanziari e contratti.
Il modello è in grado di elaborare sia gli elementi testuali che la disposizione spaziale nei file, consentendo due vantaggi:

  • evita l'uso di costosi codificatori di immagini;
  • riesce a elaborare strutture di documento eterogenee.
Le performance rilevate sono molto elevate.
Il paper: https://arxiv.org/abs/2401.00908
DocLLM, un LLM di JPMorgan
DocLLM, un LLM di JPMorgan

OpenVoice: un modello open source per la clonazione della voce

OpenVoice è il nuovo modello open source dedicato alla clonazione della voce sviluppato da MIT, Tsinghua University e MyShell.
Il processo è quasi istantaneo, con un controllo granulare del tono, dall’emozione all’accento, al ritmo, alle pause e all’intonazione. Il tutto con un piccolo clip audio in input.
Si basa su due modelli di Deep Learning complementari: un text-to-speech (TTS) e un “convertitore di tono”. Il primo è stato addestrato su 30k frasi audio, annotando ogni campione con emozioni, intonazione e ritmo. Il secondo è stato allenato su oltre 300k campioni vocali. In entrambi i casi, l’audio originale è stato scomposto in fonemi, i suoni distintivi del linguaggio, e rappresentato tramite vettori (embeddings) processabili da un algoritmo.

Il paper: https://arxiv.org/abs/2312.01479, ma il modello è già usabile su HuggingFace.

OpenVoice: un modello open source dedicato alla clonazione della voce


Ferret: il modello generativo di Apple

E anche Apple entra nella corsa frenetica dell'AI Generativa con Ferret, un modello multimodale open source presentato in sordina a ottobre.
Sì, "Apple" e "open source" nella stessa frase.. Una campagna per promuovere un'AI etica? Una tattica per ottenere un vantaggio competitivo? La consapevolezza che si tratta dell'unica via possibile? Forse la verità combina tutte queste le componenti.
Resta il fatto che si tratta di un modello potente, con approcci innovativi e con intuizioni per sfruttare un hardware meno potente.

Ci sarà un assistente virtuale all'avanguardia nel prossimo iPhone?
  • Sembra avere performance elevate in ambito visivo. Superiori a Vision di OpenAI, pur essendo molto più piccolo. Come?
  • Oltre a processare l'intera immagine, può concentrarsi su elementi dell'immagine stessa, in modo da conoscerne il contenuto in modo rapido ed efficiente.
  • Lavora come farebbe un essere umano che guarda una foto: non processa i singoli pixel, ma riconosce determinati elementi, e grazie a questi ha subito la conoscenza del contenuto.
L'evoluzione di questi sistemi è sempre più affascinante.
GitHub - apple/ml-ferret
Contribute to apple/ml-ferret development by creating an account on GitHub.

Infinity: un nuovo database per sistemi RAG

Il concetto di RAG (Retrieval-Augmented Generation) mette insieme un LLM e un archivio di informazioni per ottenere estrazione ed elaborazione di dati in modo performante.
Infinity è una nuova tipologia di database progettato appositamente per questi sistemi.
Non si tratta di un database vettoriale, ma di un concetto che combina la ricerca full-text, la ricerca vettoriale (anche su più colonne) e su dati strutturati.
È estremamente veloce, e fornisce diverse interfacce (es. API Python e SQL).

Non solo i LLM si evolvono velocemente, ma anche le strutture dati per generare il contesto.
GitHub - infiniflow/infinity: The AI-native database built for LLM applications, providing incredibly fast vector and full-text search
The AI-native database built for LLM applications, providing incredibly fast vector and full-text search - GitHub - infiniflow/infinity: The AI-native database built for LLM applications, providin…

Che tipo di bolla è l'AI?

Titolo provocatorio, ma anche un saggio che tutti coloro che si occupano di Intelligenza Artificiale dovrebbero leggere.
Su diversi passaggi non sono pienamente allineato, ma fa capire quanto è importante guardare oltre, e implementare soluzioni agili, ancorate a processi solidi che vengono accelerati e ampliati grazie alla tecnologia.

Cory Doctorow: What Kind of Bubble is AI?
Of course AI is a bubble. It has all the hallmarks of a classic tech bubble. Pick up a rental car at SFO and drive in either direction on the 101 – north to San Francisco, south to Palo Alto – and …

La funzionalità "Realtime Gen" di Leonardo AI

Anche Leonardo AI sta lavorando al concerto di generazione di immagini in real time.
Nel video una piccola dimostrazione della nuova funzionalità denominata "Realtime Gen", che genera l'immagine mentre scrivo il prompt.

Sembra un esercizio di stile, ma pensiamo a come cambierà la UX delle piattaforme quando l'esperienza potrà cambiare in tempo reale in base ai dati degli utenti.

"Realtime Gen" di Leonardo AI


Google presenta VideoPoet: un modello generativo dedicato ai video

Google ha recentemente presentato VideoPoet, un modello in grado di generare/editare video a partire da prompt multimodali.
Questo non stupisce più, ma si tratta di un sistema non basato sulla diffusione. È una generazione video prodotta da un singolo LLM.
Una nuova tecnica che non implica componenti addestrati separatamente, e specializzati in ciascuna attività.

I sistemi migliorano, e diventano più efficienti, introducendo diversi vantaggi.
VideoPoet: A large language model for zero-shot video generation

- GRAZIE -

Se hai apprezzato il contenuto, e pensi che potrebbe essere utile ad altre persone, condividilo 🙂