Meta sostiene che condividere libri pirata via BitTorrent sia fair use

Diritto

Una controversia legale negli USA sta facendo venire a galla uno dei nodi più complessi del rapporto tra intelligenza artificiale e diritto d’autore. Meta, la società che sviluppa tra gli altri i modelli linguistici della famiglia Llama e che detiene la proprietà di Facebook, Instagram e WhatsApp, sostiene in tribunale che la condivisione automatica di libri tramite la rete BitTorrent possa rientrare nel concetto di fair use.

La tesi emerge nell’ambito di una causa intentata da diversi autori statunitensi e introduce una questione delicata: se la distribuzione involontaria di opere protette, generata dal funzionamento stesso di un protocollo peer-to-peer (P2P), possa essere considerata parte integrante di un uso trasformativo legato all’addestramento dei modelli AI.

L’addestramento dei modelli linguistici su larga scala (LLM, Large Language Models) richiede dataset di dimensioni enormi. Negli ultimi anni numerose aziende tecnologiche hanno utilizzato archivi digitali non ufficiali per ottenere corpora di libri e articoli. In diversi casi tali raccolte provengono da cosiddette “biblioteche ombra”, archivi online che distribuiscono opere protette senza autorizzazione degli editori. Tra le più citate compare Anna’s Archive, un catalogo che aggrega contenuti provenienti da diverse piattaforme. Secondo i documenti giudiziari, Meta avrebbe scaricato grandi dataset di libri da queste fonti per alimentare i processi di training dei suoi modelli linguistici.

La causa degli autori e l’origine della controversia

Nel 2023 un gruppo di scrittori ha avviato una class action contro Meta. Gli autori sostengono che l’azienda abbia utilizzato milioni di libri protetti da copyright per addestrare i modelli linguistici senza ottenere licenze o autorizzazioni.

La causa si concentra su due profili distinti: la copia delle opere utilizzate come dataset di addestramento e la distribuzione dei file attraverso reti peer-to-peer durante il download.

Una decisione del tribunale federale della California ha già riconosciuto che l’uso dei libri per il training dell’AI potrebbe rientrare nel fair use, una dottrina del diritto statunitense che consente l’utilizzo di opere protette in determinate circostanze, ad esempio quando l’uso è trasformativo e non produce danni concreti al mercato dell’opera originale.

Tuttavia la decisione non ha risolto il secondo punto: la distribuzione dei file tramite BitTorrent durante il processo di acquisizione dei dataset.

Come funziona realmente BitTorrent

Per comprendere la posizione di Meta è necessario analizzare il funzionamento tecnico del protocollo BitTorrent. Si tratta di un sistema di distribuzione P2P che suddivide un file in centinaia o migliaia di piccoli blocchi. Ogni utente che scarica il file diventa contemporaneamente un nodo della rete, condividendo con altri utenti le parti già ricevute.

Il meccanismo si basa su un file di metadati chiamato .torrent oppure su un link magnet che identifica l’hash crittografico del contenuto. Una volta avviato il download, il client BitTorrent stabilisce connessioni con altri peer tramite tracker o reti distribuite come DHT (Distributed Hash Table).

In questa architettura non esiste una distinzione netta tra downloader e uploader: il software invia automaticamente i blocchi già scaricati ad altri partecipanti per mantenere efficiente la distribuzione dei dati.

Tale caratteristica, definita seeding, rappresenta il cuore del protocollo ma crea anche implicazioni legali rilevanti. Nella maggior parte delle giurisdizioni la distribuzione di contenuti protetti da copyright attraverso una rete P2P costituisce una violazione diretta del diritto d’autore, indipendentemente dal fatto che l’utente abbia davvero intenzione o meno di condividere il materiale.

La nuova strategia difensiva di Meta

Nell’ambito della causa, Meta ha presentato una risposta integrativa (fonte: TorrentFreak) sostenendo che l’upload dei libri durante il download tramite BitTorrent non rappresenta un atto separato di distribuzione illegale. Secondo l’azienda, si tratterebbe di una conseguenza tecnica inevitabile del protocollo utilizzato per ottenere i dataset.

Se il download dei libri per l’addestramento dei modelli è stato ritenuto fair use per la sua natura trasformativa, allora anche le attività tecnicamente necessarie per realizzarlo dovrebbero rientrare nello stesso perimetro giuridico.

L’argomento è definito dagli avvocati dell’azienda come una forma di “fair use per necessità tecnica”. In altre parole, la condivisione temporanea dei file con altri peer costituirebbe una fase accessoria e inevitabile del processo di acquisizione dei dati.

Meta sostiene inoltre che alcuni dataset di grandi dimensioni erano accessibili esclusivamente tramite torrent, rendendo BitTorrent l’unico metodo pratico per scaricarli in blocco.

Posizione fair use AI Meta

Le obiezioni degli autori

Gli autori contestano duramente questa interpretazione (fonte: TorrentFreak). Secondo i loro legali, l’upload automatico dei file costituisce una distribuzione non autorizzata di opere protette e quindi una violazione distinta rispetto al semplice utilizzo delle opere per addestrare un modello AI.

La controversia riguarda anche la tempistica della difesa. Gli avvocati degli scrittori sostengono che Meta abbia introdotto l’argomento del fair use relativo alla distribuzione solo in una fase avanzata del procedimento. Meta respinge l’accusa affermando di aver già menzionato questa linea difensiva in precedenti documenti processuali.

Nel frattempo l’azienda ha citato anche le deposizioni degli stessi autori, sottolineando che nessuno di loro ha identificato esempi concreti in cui i modelli linguistici generino passaggi copiati dai loro libri. Secondo Meta, l’assenza di output identici ridurrebbe l’ipotesi di danno economico diretto.

Anna’s Archive e il lato nascosto dell’AI: la fabbrica globale dei dataset pirata

Dietro la retorica dell’accesso universale alla conoscenza si intravede una dinamica “sospetta”. Archivi come Anna’s Archive funzionano sempre più come giganteschi hub di aggregazione per dataset culturali su scala industriale: libri, articoli scientifici, musica, metadati editoriali.

Per chi sviluppa modelli AI, un archivio che indicizza centinaia di terabyte di testi e opere digitali rappresenta una materia prima straordinaria: dati etichettati, strutturati e spesso già ripuliti.

Il risultato è un cortocircuito economico evidente. Il costo di licenze editoriali su scala globale diventa improvvisamente evitabile, mentre la responsabilità giuridica si disperde tra piattaforme anonime, reti P2P e dataset derivati.

Il vero conflitto non riguarda più il singolo download illegale ma la trasformazione di immense biblioteche pirata in infrastrutture di approvvigionamento dati per l’industria dell’AI. E il punto più controverso emerge proprio qui: la conoscenza prodotta da milioni di autori rischia di diventare il carburante gratuito per modelli proprietari destinati a generare valore economico concentrato in poche aziende tecnologiche.

Fair use e diritto europeo: perché la difesa di Meta difficilmente funzionerebbe in Italia

Un elemento spesso trascurato riguarda la profonda differenza tra il diritto d’autore statunitense e quello europeo. Negli USA esiste la dottrina del fair use, clausola giuridica relativamente flessibile che consente ai tribunali di valutare caso per caso se l’utilizzo di opere protette possa essere considerato legittimo o meno, soprattutto quando non produce un danno concreto al mercato dell’opera originale. Proprio su questa elasticità si fondano molte delle difese utilizzate dalle aziende tecnologiche nei procedimenti legati all’addestramento dei modelli di intelligenza artificiale.

L’ordinamento europeo segue invece una logica completamente diversa. Il sistema si basa su un elenco chiuso di eccezioni e limitazioni al copyright, previste dalla normativa comunitaria e recepite nelle legislazioni nazionali, come la legge italiana sul diritto d’autore.

In questo quadro non esiste una clausola generale equivalente al fair use: un utilizzo è lecito solo se rientra esplicitamente tra le eccezioni previste (diritto di citazione e critica, uso per insegnamento o ricerca, copia privata, parodia e caricatura, conservazione da parte di biblioteche e archivi).

Anche la più recente apertura introdotta dalla direttiva europea sul text and data mining (Direttiva Copyright 2019/790) consente l’analisi automatizzata di contenuti soltanto in presenza di accesso legittimo alle opere e, in molti casi, con la possibilità per gli editori di opporsi. Eccezioni sono previste per università e istituti di ricerca, ma non certo per usi commerciali.

Una difesa basata sull’idea che la distribuzione automatica di opere protette attraverso reti P2P sia una “necessità tecnica” difficilmente troverebbe spazio nei tribunali europei, dove la condivisione non autorizzata di contenuti tramite questi sistemi di scambio continua a essere qualificata come comunicazione al pubblico in violazione del copyright.