Garante Privacy: i gestori dei siti devono proteggere i dati personali dalle IA

I gestori dei siti Web potrebbero dover proteggere i dati personali pubblicati nelle loro pagine dalla scansione (attività di web scraping) volta all'addestramento degli algoritmi di intelligenza artificiale.

Il 22 novembre 2023 il Garante Privacy ha comunicato di aver avviato un’indagine conoscitiva incentrata su siti Web pubblici e privati. Questa volta l’obiettivo consiste nel verificare l’effettiva adozione di idonee misure di sicurezza utili a impedire la raccolta massiva (web scraping) di dati personali a fini dell’addestramento di algoritmi di intelligenza artificiale (IA).

Sappiamo infatti che la maggior parte dei modelli generativi proposti dalle aziende che si occupano di IA sono stati addestrati utilizzando anche i dati pubblicamente accessibili sul Web. OpenAI ha più volte rimarcato che non esiste il problema del copyright nel caso dei modelli generativi e, in generale, dei modelli di linguaggio di grandi dimensioni (LLM). Questo perché nessun dato, compresi quelli esaminati dai crawler dell’azienda, è conservato in un database.

L’Autorità garante per la protezione dei dati personali, tuttavia, mette sul tavolo un altro problema che sposta l’attenzione dalle società che si occupano di intelligenza artificiale e machine learning a chi gestisce e pubblica contenuti. Nel mirino, ci sono ancora una volta gli editori. O meglio, tutte le imprese che sul Web pubblicano informazioni inquadrabili come dati personali, anche se forniti espressamente e volontariamente dagli utenti interessati.

Il Garante Privacy rileva concreti rischi a valle dell’attività di web scraping esercitata ai fini dell’addestramento delle IA

Abbiamo già visto cos’è il web scraping e quando non è ammesso. In due parole, con l’espressione web scraping si fa riferimento a quell’attività che consiste nel raccogliere dati da pagine Web, sia testuali che multimediali, per poi elaborarli o archiviarli. Il web scraping può essere utilizzato per diverse finalità, come l’analisi dei dati, la creazione di basi di dati, il monitoraggio dei prezzi online, l’estrazione di informazioni per la ricerca e molto altro ancora. Tra i vari fini c’è, come osservato in precedenza, anche l’addestramento dei modelli generativi.

È nota, infatti, l’attività di diverse piattaforme di IA, le quali attraverso il web scraping raccolgono, per differenti usi, enormi quantità di dati anche personali pubblicati per specifiche finalità (cronaca, trasparenza amministrativa ecc.) all’interno di siti internet gestiti da soggetti pubblici e privati“, osserva il Garante che a questo punto coinvolge direttamente associazioni di categoria, associazioni di consumatori, esperti e rappresentanti del mondo accademico affinché facciano pervenire i loro commenti e contributi sulle misure di sicurezza adottate e adottabili contro la raccolta massiva di dati personali a fini di addestramento degli algoritmi.

I gestori dei siti Web sono chiamati a proteggere i dati personali degli utenti dalla scansione automatizzata

La posizione del Garante sembra essere chiara. I gestori dei siti Web sono titolari del trattamento dei dati personali presenti nei contenuti che pubblicano. La pubblicazione può avvenire su richiesta degli utenti, come accennato in precedenza (si pensi a un social network, a un forum, alle aree di discussione,…), ma anche per finalità di informazione (compreso il diritto di cronaca), sulla base del legittimo interesse, per finalità di trasparenza (obblighi di legge) e così via.

A stretto rigore, quindi, il titolare del trattamento dovrebbe dimostrare di aver fatto tutto il possibile per sottrarre i dati personali alla scansione e all’acquisizione ai fini di una successiva elaborazione degli algoritmi che poi andranno ad addestrare algoritmi di IA.

Sia OpenAI che Google Bard permettono di impostare il file robots.txt in maniera tale da bloccare il web scraping sulle proprie pagine. L’Autorità sembra guardare con interesse a queste soluzioni anche se, va detto, non tutte le piattaforme che mettono a disposizione modelli generativi le mettono a disposizione.

L’editore, insomma, è chiamato porre in atto ogni misura volta a impedire l’acquisizione di dati personali da parte di soggetti terzi non aventi titolo. Quanto meno, è essenziale porsi il problema per evitare eventuali future contestazioni.

A seguito dell’indagine conoscitiva, l’Autorità Garante si riserva di adottare i necessari provvedimenti, anche in via d’urgenza. L’argomento tornerà quindi molto presto di scottante attualità.

Ti consigliamo anche

Link copiato negli appunti