Indice dei Contenuti
L’IA accusata di plagio, ovverosia di violare il copyright. L’introduzione dell’intelligenza artificiale generativa ha apportato una rivoluzione nel panorama tecnologico, con ripercussioni anche su diverse professioni. L’impiego di strumenti d’IA, infatti, solleva questioni legali, e anche complesse. I modelli linguistici propri dell’IA si basano sull’addestramento da contenuti preesistenti. Molti di questi sono protetti da copyright, per l’appunto, e i sistemi sono in grado d’elaborare una mole davvero impressionante di dati. Quel che n’è emerso, è la fragilità delle attuali normative nell’affrontare l’evoluzione della tecnologia odierna.
Emblematico di tutto ciò è, da ultimo, il caso canadese, nel quale cinque grandi gruppi editoriali hanno scagliato l’accusa contro OpenAI di far uso dei contenuti di loro proprietà, senza autorizzazione, ai fini dell’addestramento di ChatGPT. Sono stati richiesti, a tal proposito, dei risarcimenti miliardari. La disputa intervenuta, ben lungi dall’essere un caso isolato, è la punta dell’iceberg di una questione di portata globale. Da seguire attentamente, in quanto potrebbe condurre verso la ridefinizione delle regole della proprietà intellettuale nell’era dell’IA.
L’IA accusata di violare il copyright: il caso canadese contro OpenAI
Il caso risale a venerdì scorso, quando cinque tra i più noti gruppi editoriali canadesi, hanno avviato una causa legale contro OpenAI, la società californiana detentrice di un importante modello d’intelligenza artificiale, per violazione di copyright. Le società canadesi in questione sono le seguenti: Torstar (editore del Toronto Star), Postmedia (National Post, Financial Post), The Globe and Mail, The Canadian Press e CBC/Radio-Canada.
La parte centrale della disputa riguarda il fatto che OpenAI avrebbe sfruttato contenuti protetti da diritto d’autore, estratti con scraping (la tecnica per mezzo della quale un programma informatico estrae dei dati dall’output generato da un altro programma) e senza autorizzazione, con la finalità d’addestrare il modello d’intelligenza artificiale ChatGPT, senza che siano stati riconosciuti né compensati i detentori dei diritti.
La denuncia è stata depositata presso la Corte Superiore dell’Ontario, e verte sulla questione secondo cui OpenAI trarrebbe un profitto commerciale cospicuo dall’uso non autorizzato di contenuti giornalistici, senza che nelle tasche degli editori venga versato un solo cent degli introiti. Quanto alla cifra del risarcimento richiesto, è a dir poco enorme, considerato che le società pretendono 20.000 dollari canadesi per singolo articolo copiato e implementato per addestrare il modello IA. Le stime, concernenti l’ipotesi in cui il risarcimento venga accolto dalla Corte, parlano non a caso di diversi miliardi di dollari, vista l’imponente mole di dati elaborati dal modello.
Gli editori medesimi hanno dichiarato, in un comunicato congiunto: “Il giornalismo è nell’interesse pubblico. L’utilizzo da parte di OpenAI dei nostri contenuti per profitto commerciale non lo è: è illegale.” Non è mancata comunque la risposta, al detto comunicato, da parte del marchio OpenAi, di proprietà di Sam Altman. OpenAI invoca il principio del “fair use”: in altre parole, si riferisce a come i propri modelli si basino su dati accessibili pubblicamente, e nel rispetto dei principi internazionali del copyright.
Oltre a quanto riportato, la stessa OpenAI ha fatto presente la sua attuale disponibilità a collaborare con gli editori, mediante la messa a disposizione di strumenti, agli editori, finalizzati ad escludere i contenuti di questi ultimi dall’addestramento, con la proposta anche di nuove modalità d’attribuzione e monetizzazione per i contenuti.
Il dibattito è veramente ampio, vertente sulla regolamentazione dell’intelligenza artificiale, il quale potrebbe detenere implicazioni di portata, al momento incommensurabile, relativamente alla protezione della proprietà intellettuale in tutto il mondo.
Precedenti internazionali di IA accusata di violazione del copyright e casi simili
Per fornire un’idea di come non si tratti di un caso isolato, quello canadese, possiamo risalire a casi simili molto recenti. Negli USA, il New York Times ha denunciato sempre OpenAI nel 2023, contestandole d’aver fatto utilizzo d’articoli protetti da paywall allo scopo dell’addestramento di ChatGPT. Anche in questo caso, la sussistenza presunta di danni economici veniva valutata in un conto miliardario. Il gruppo editoriale Alden Global Capital, proprietario ad esempio del giornale Chicago Tribune, ha intrapreso azioni legali dovute a motivi analoghi, per uso non autorizzato di contenuti giornalistici.
Non solo testate giornalistiche con i rispettivi editori, bensì anche celebri autori come George R.R. Martin e Jonathan Franzen hanno lamentato una violazione dei propri diritti, per un probabile uso indebito delle opere letterarie prodotte, e ancora una volta per impartire istruzioni ai modelli di IA. La preoccupazione nel mondo creativo è in crescita, e l’intelligenza artificiale viene vista, nello stesso settore, sempre più come una minaccia incombente sulla proprietà intellettuale e sul valore economico delle opere originali.
Oltre che nel continente americano, anche in Europa si riscontra la presenza di dibattiti sul trattamento dei dati personali e la proprietà intellettuale, in relazione all’operato di OpenAI e aziende dall’ambito operativo analogo. In Italia, in Francia e in Germania, sono state condotte indagini sull’operato della società californiana e diverse altre aziende tecnologiche, ormai apertesi ai modelli d’IA. Emerse tensioni anche in Asia, dove la Corte di Pechino ha riconosciuto di recente il copyright delle opere generate con intelligenza artificiale. Si è determinato, nell’ultimo caso, una modalità d’affrontare la questione decisamente più protezionistica nei riguardi dell’IA. Se quindi, si ha l’IA accusata in America, in Europa e in Asia si pone comunque la questione, con una probabile evoluzione giurisprudenziale.
Sono stati riscontrati altresì dei parallelismo nei casi a coinvolgimento di Stability AI e Midourney, che avrebbero implementato delle immagini protette da copyright per istruire i modelli di loro proprietà. In definitiva, non si tratta di una problematica circoscritta a singoli settori, o singole aziende, bensì riguardanti l’intero ecosistema dell’IA generativa, dalle implicazioni globali ancora in via di definizione.
IA accusata di plagio, l’analisi del concetto di “fair use” impiegato dalla difesa
Non possiamo inquadrare al meglio la questione dell’IA accusata senza approfondire sul principio del “fair use”. È un elemento che può fare la differenza in molte delle casistiche riscontrate, e non è un caso che a tal principio vi abbia operato richiamo la stessa OpenAI. Negli Stati Uniti, il fair use permette di far ricorso a materiali tutelati da copyright senza autorizzazione, chiaramente in circostanze ben determinate.
Nello specifico, ciò è consentito, per il medesimo principio, per finalità educative, critiche o ri ricerca. Nel momento in cui l’impego coinvolge applicazioni di tipo commerciale, come l’addestramento di modelli di IA, esso assume una connotazione piuttosto controversa. In Canada vige un pari principio, con la differenza che è regolato giurisprudenzialmente da interpretazioni più restrittive rispetto a quanto avviene negli USA.
Nella pratica, la legislazione in commento afferma che ci si può avvalere di materiali soggetti a copyright per un uso pubblico, ma permane in bilico la distinzione tra il suddetto uso e l’uso commerciale. Da un verso, si può giustificare l’addestramento dei modelli in quanto utilizzo trasformativo, cioè non replicante per via diretta i contenuti originali. Ma dall’altro, si dovrebbe tenere conto della natura commerciale degli stessi strumenti, una natura che li porta a generare profitti ingenti, e qui subentrano i dubbi sulla conformità alle normative sul copyright.
Il caso canadese, insorto contro OpenAI, mostra esattamente l’ambiguità appena descritta. La tesi dei querelanti è appunto quella secondo cui, l’uso di contenuti protetti senza autorizzazione, vada al di là dei limiti imposti dal fair use. La risposta all’interrogativo sulla violazione o meno del copyright non trova comunque una strada facile, siccome, fra gli altri elementi da considerare, ci sono altresì i dubbi di fattibilità su una dimostrazione del danno diretto. Bisognerebbe poi analizzare molto attentamente quelle che sono le somiglianze sostanziali fra il training e gli output generati.
Querelanti come il New York Times, hanno sostenuto che ChatGPT possa produrre testi, per mezzo delle istruzioni, quasi identici agli originali. Una somiglianza che assuma un certo peso non è facile da dimostrare, visto e considerato come i tribunali richiedano prove di copia diretta, o comunque dai tangibili impatti sul mercato delle opere originali. A maggior ragione se la natura dei processi d’addestramento dell’IA resta ancora poco trasparente.
Da tutto il contesto si evincerebbe come occorrano, al giorno d’oggi, delle normative che costituiscano un quadro legale più chiaro, nel quale il diritto ad innovare possa conciliarsi con la protezione della proprietà intellettuale, nell’era dell’IA generativa.
La posizione di OpenAI e le sue strategie
Dinanzi all’IA accusata di violazione de copyright, OpenAI ha risposto, per come accennato, con le proposte di dialogo e collaborazione con i detentori dei diritti. L’azienda ha dichiarato che i propri modelli sono stati addestrati su dati disponibili pubblicamente, in coerenza col principio del fair use, e di fornire agli editori degli strumenti per escludere determinati contenuti dai dataset di training, con l’esercizio di un’opzione simile all’opt-out. In quest’ultimo, l’utilizzo dei dati dell’utente avviene sotto il suo previo ed esplicito consenso. Nel caso di specie, invece, dovrebbe avvenire un esplicito diniego all’utilizzo di determinati contenuti, stando sempre agli strumenti che OpenAI dichiara d’aver messo a disposizione degli editori.
C’è anche un altro importante tassello, nella strategia adottata da OpenAI, che l’azienda fa valere nella propria articolata risposta. La stessa afferma d’essere al lavoro nell’attribuire doverosamente i contenuti tratti, e d’integrare nei testi pertinenti i link diretti agli articoli originali elaborati da ChatGPT.
Un modo di procedere che escluderebbe qualunque controversia per l’IA accusata, si rinviene negli accordi siglati da OpenAI con i singoli editori (altra tematica preannunciata in apertura), qual è il caso di Condé Nast e News Corp. Le medesime intese fanno leva sull’accesso legale ai contenuti di proprietà per addestrare i modelli di IA, con il corrispettivo in compensi economici e maccanismi di condivisione dei profitti. Quest’ultima, tra l’altro, potrebbe essere intesa in qualità di via sostenibile per monetizzare l’uso di contenuti giornalistici ad opera delle IA. E, operando sistematicamente in tale direzione, presto potrebbe non aversi più un caso d’IA accusata di plagiare testi, o comunque di violare il copyright.
Bisogna però tenere a freno gli entusiasmi, poiché la questione è ancora in fase di svolgimento. Quelli richiamati, infatti, sono comunque accordi che hanno ricevuto critiche per via d’una limitata applicabilità, dato che non tutti gli editori dispongono di un potere contrattuale idoneo a negoziare tali intese. Inoltre, come regolamentare l’uso non autorizzato di contenuti non oggetto d’accordi? Rimangono sempre i primi punti espressi nella risposta di OpenAI, ma occorre vedere se basteranno, in una sede processuale. Quel che è certo. è che servirebbe una soluzione normativa globale, da estendersi a tutti i settori e dimensioni editoriali, onde fugare ogni dubbio.
Per altri articoli a tema, clicca qui. Fonte immagini: sito iStock Photo.