ChatGPT, GPT-3 e generazione di immagini attraverso l'AI: il punto di vista legale con Antonino Polimeni

È possibile utilizzare i testi generati da ChatGPT e da GPT-3? Ci sono dei rischi ad utilizzare immagini generate da algoritmi generativi? Insieme ad Antonino Polimeni proviamo a rispondere a queste ed altre domande.

Alessio Pomaro

02 feb 2023 • 7 min read

ChatGPT, GPT-3 e generazione di immagini con l'AI: il punto di vista legale con Antonino Polimeni

Insieme ad Antonino Polimeni, avvocato che si occupa da 15 anni di Diritto di Internet, proviamo a chiarire alcuni dubbi sull'utilizzo di ChatGPT, GPT-3 ed algoritmi Text-To-Image, dal punto di vista legale.

L'utilizzo degli algoritmi generativi dal punto di vista legale

Come vengono trattati i dati degli utenti su ChatGPT? Il sistema può essere utilizzato senza rischi?

Siamo in una fase troppo embrionale. Nel momento in cui non siamo noi ad addestrare ChatGPT, ma in generale l'Intelligenza Artificiale, non sappiamo effettivamente che tipo di dati utilizza e se li ottiene attraverso processi di scraping o altre attività di questo tipo, oppure tramite ciò che viene inserito dalle persone che utilizzano il servizio. Non conosciamo in realtà quale sia il tipo di apprendimento.

Però c'è una considerazione da fare. Il trattamento di dati personali avviene quando si compie qualsiasi tipo di operazione su tali dati da cui può derivare l'identificazione di una persona (indirizzo IP, numero di cellulare, targa di un'automobile, ecc.). E si parla di trattamento quando viene compiuta qualsiasi operazione su un database organizzato, che ha una struttura logica.
Se possiamo trovare entrambe le caratteristiche all'interno di ChatGPT, allora saranno loro effettivamente ad effettuare un eventuale illecito perché starebbero trattando dei dati personali assolutamente senza senza poterlo fare.

Responsabilità nostra?
Nessuna in questo momento.

In questo momento, utilizzando il servizio semplice della "chat" non abbiamo nessun tipo di responsabilità. È chiaro che se prendiamo quei contenuti e li mettiamo all'interno di un nostro database, a quel punto stiamo trattando i dati senza aver chiesto nessun tipo di consenso.
Ricapitolando.. nessuna responsabilità da parte nostra, a meno che non se ne faccia un uso strutturato.
Responsabilità del sistema.. non sappiamo effettivamente cosa ci sia all'interno di quel "cervello". Non sappiamo come sono strutturati, e lo dovranno chiarire.

I contenuti che produce ChatGPT possono essere utilizzati?

In un post dicevi il sistema assegna i diritti sull’output, ma ma l'utente ne è l’unico responsabile e deve assicurarsi che non violino alcuna legge.

Per la questione copyright, i termini e le condizioni sono abbastanza chiari. OpenAI stessa afferma che il contenuto potrebbe essere copiato. Questa è la strategia di numerosi altri sistemi basati sui Large Lagnuage Models, anche quando l'output non è un testo ma si tratta di immagini.

Fondamentalmente, oggi, è possibile utilizzare tutto ciò che questi sistemi producono, ma se il materiale viola il copyright è una responsabilità di chi lo utilizza.

Possiamo equiparare questo genere di algoritmi ad un dipendente in azienda. Supponiamo che tra le sue mansioni debba trovare o realizzare un'immagine per il sito web. Se l'immagine viene generata da un algoritmo ed inserita nel sito web di chi è la responsabilità?

Molti mi chiedono in questo periodo quando viene violato il diritto d'autore. Non esistono delle tabelle o regole precise. Il diritto d'autore tra i vari ambiti del diritto è quello più soggetto ad interpretazione: è il giudice a stabilire se si tratta di plagio oppure no. Quindi, per capire se corriamo dei rischi, cerchiamo di utilizzare degli strumenti che rilevano correlazioni con materiale già esistente, come Google Immagini o GPT Radar.

Il mio consiglio in questo momento è quello di andarci con i piedi di piombo, soprattutto se utilizziamo il materiale generato a scopo commerciale.

..è un po' come dire che nel nostro garage possiamo creare ciò che vogliamo, ma nel momento in cui portiamo fuori le creazioni, ne diventiamo responsabili.

Se utilizziamo GPT-3 attraverso il Playground e le API, cosa c'è da sapere sulla gestione del dato e sui contenuti che vengono prodotti?

Nel momento in cui utilizziamo questi sistemi per le nostre piattaforme, di fatto stiamo già trattando il dato. Quindi, in questo caso, abbiamo la responsabilità di ciò che "tiriamo fuori". In questo momento nel contratto di licenza delle API non c'è nulla che possa regolare questo trasferimento di dati personali, quindi non andrei a trattare dati personali finché non viene chiarito completamente ogni ogni aspetto.

Per quanto riguarda il il copyright è possibile utilizzare i contenuti semplicemente dichiarando in maniera trasparente che sono stati realizzati da un'intelligenza artificiale. Al momento non viene richiesto nemmeno di specificare l'origine esatta (GPT-3).

Anche in questo caso, la responsabilità del contenuto è di chi lo ha generato.

Se utilizziamo il fine-tune training di GPT-3, ovvero un addestramento personalizzato, come dobbiamo ragionare?

Un approfondimento sul concetto di fine-tune training:

Sfruttare delle istanze in server europei di Azure potrebbe essere una buona scelta dal punto di vista della gestione del dato?

In questo momento no, perché esiste ancora il "blocco" verso gli Stati Uniti. Microsoft è un'azienda americana, quindi, anche sfruttando dei server europei non si avrebbero dei vantaggi. Tuttavia il problema si sta risolvendo, quindi non preoccupiamoci eccessivamente perché cambierà tutto, e cambierà tanto.

Per quanto riguarda la prima domanda, in realtà è possibile fare qualunque cosa, l'importante è che le persone siano consapevoli.

Allora abbiamo due scenari. Il primo: diamo all'intelligenza artificiale i nostri dati in un "database separato" da dove possiamo eliminarli quando vogliamo. I dati, quindi non vanno nel "cervellone", ma rimangono in un "cervellino" utile al buon utilizzo del sistema. È comunque necessario avvertire gli utenti in merito al trattamento dei dati.

Nel caso in cui, invece, dovessimo trasferire i dati al "cervellone" rendendoli disponibili anche ad altri utenti, anche in questo caso è possibile procedere.
Possiamo fare (quasi) tutto, ma è necessario farlo nel modo giusto, chiedendo i consensi correttamente e dando le informative necessarie.

Oggi abbiamo praticamente tutti i modelli di generazione delle immagini con cause aperte, in quanto accusati di aver usato dati protetti da copyright in fase di training. Cosa ne pensi di questo?

L'utilizzo delle immagini per la fase di training è una cosa semplicemente ammissibile in Italia: guardo, utilizzo la tua immagine per apprendere determinati aspetti.

La mia domanda è: com'è possibile sapere che delle immagini sono state utilizzate per la fase di training? Perché riconoscono degli elementi o un determinato stile nell'output? Allora non siamo più di fronte ad un problema di training: il problema è che esiste un output. E se c'è l'output può esserci una violazione del diritto d'autore.

L'immagine principale del post è stata generata usando Midjourney.

Come ti aspetti si evolveranno i temi legati agli algoritmi generativi dal punto di vista legale?

Si evolveranno con la chiarezza e la trasparenza. Ma anche con una maggior consapevolezza da parte degli utenti.

È interessante il fatto che se chiedo a DALL-E 2 un'immagine di Ronaldo non la ottengo, però sa benissimo chi è Ronaldo, perché genera giocatori con la maglia del Real Madrid. Si tratta di un esempio di gestione del problema del copyright e dei diritti.