Anthropic ha distrutto milioni di libri per addestrare l'AI Claude

Anthropic ha investito milioni per digitalizzare libri distrutti per addestrare Claude, sollevando questioni legali ed etiche sul copyright e il fair use.
Anthropic ha distrutto milioni di libri per addestrare l'AI Claude

Milioni di libri sono stati sacrificati per addestrare l’intelligenza artificiale. Anthropic, un’azienda di punta nel settore, ha adottato una strategia di digitalizzazione libri su scala industriale che sta sollevando numerosi interrogativi etici e legali. Questa operazione, che prevede l’acquisto, la scansione e la distruzione di volumi cartacei, mira a fornire al modello Claude un corpus di dati di alta qualità, superiore rispetto a quello reperibile online.

La corsa ai dati di qualità

Nel panorama dell’addestramento IA, l’accesso a dati testuali di alta qualità rappresenta una delle sfide più grandi. I libri pubblicati offrono contenuti curati e strutturati, un valore aggiunto rispetto a fonti come i social media. Per questo motivo, Anthropic ha deciso di investire milioni di dollari per acquistare legalmente grandi quantità di libri fisici. Una volta scannerizzati, questi volumi vengono distrutti, segnando una perdita definitiva per il patrimonio cartaceo, anche se non si tratta di opere rare.

Questa scelta è stata giustificata dalla sentenza del giudice William Alsup, che ha dichiarato la pratica conforme al fair use americano. Il principio del “diritto di prima vendita” consente infatti all’acquirente di utilizzare i libri come meglio crede, inclusa la loro distruzione dopo la digitalizzazione. Tuttavia, questa decisione ha acceso un dibattito sull’etica di tale approccio, in un’epoca in cui la conservazione del patrimonio culturale è cruciale.

Esistono metodi di digitalizzazione non distruttivi che potrebbero rappresentare una valida alternativa. Organizzazioni come Internet Archive o collaborazioni tra OpenAIMicrosoft e le biblioteche di Harvard hanno sviluppato tecniche che preservano le copie fisiche. Questi approcci non solo tutelano il patrimonio culturale, ma potrebbero anche ridurre le critiche rivolte a operazioni come quelle di Anthropic.

Alimentare l’AI costa tantissimo

La sentenza ha portato alla luce un dettaglio controverso: prima del 2024, l’azienda aveva utilizzato copie piratate per contenere i costi. Questo aspetto è stato abbandonato con l’adozione di pratiche di acquisizione legale, ma solleva ulteriori interrogativi sulla trasparenza e l’integrità del settore.

Il caso Anthropic rappresenta un punto di svolta per l’industria dell’intelligenza artificiale. Da un lato, la necessità di addestrare modelli sempre più sofisticati richiede un accesso crescente a dati di qualità. Dall’altro, la distruzione sistematica di libri solleva dubbi sulla sostenibilità culturale di tali pratiche. Ma mantenere in magazzino i libri acquistati per addestrare le AI rappresenterebbe un costo insostenibile per le aziende.

Ti consigliamo anche

Link copiato negli appunti