Le immagini AI di ChatGPT e Gemini hanno una filigrana invisibile: ora c'è chi riesce a rimuoverla

ChatGPT, Gemini e gli altri modelli AI inseriscono watermark invisibili nelle immagini generate. Ecco come funzionano, perché possono essere aggirati e quali sono le implicazioni legali.

Negli ultimi 2 anni la generazione di immagini tramite modelli AI è passata da curiosità sperimentale a supporto quotidiano per un ampio ventaglio di attività e lavorazioni. Oggi strumenti come OpenAI ChatGPT Images, Google Gemini, Adobe Firefly, Midjourney e gli ecosistemi basati su Stability AI Stable Diffusion producono miliardi di immagini sintetiche. Parallelamente è emersa una nuova esigenza: identificare con affidabilità i contenuti generati artificialmente.

Per rispondere a questo problema, le aziende hanno iniziato a distribuire sistemi di watermarking visibili e invisibili, oltre a meccanismi di provenance crittografica come C2PA e Content Credentials. L’obiettivo consiste nel permettere il riconoscimento di contenuti generati con i modelli generativi, ridurre disinformazione, deepfake e manipolazioni fraudolente. Ogni immagine prodotta avvalendosi di modelli AI integra di fatto una speciale filigrana.

Quant’è affidabile la filigrana nelle immagini generate con i modelli AI?

Negli ambienti di ricerca sulla sicurezza informatica e nella comunità open source stanno comparendo strumenti che tentano di rimuovere o neutralizzare le filigrane di identificazione aggiunte dai modelli generativi.

Uno dei progetti più interessanti è senza dubbio Remove-AI-Watermarks: pubblicata su GitHub, si tratta di un’utilità che promette di eliminare watermark visibili, marker invisibili, metadati AI ed etichette “made with AI” dalle immagini generate.

Il progetto non si limita a cancellare metadati EXIF: implementa tecniche di reverse alpha blending, rigenerazione diffusion-based, manipolazione dello spazio latente e alterazioni statistiche dell’immagine per compromettere i sistemi di rilevamento automatico.

La questione non riguarda soltanto il software in sé, ma ciò che rivela sullo stato dell’arte dei watermark AI: fragili, aggirabili e spesso incapaci di garantire autenticità forte.

Dalla firma digitale al watermark invisibile: come sono tracciate le immagini AI

Esistono tre grandi categorie di tracciamento utilizzate nei generatori di immagini.

La prima è il watermark visibile, cioè un elemento grafico sovrapposto all’immagine. È il caso del piccolo “sparkle logo” ovvero la gemma scintillante utilizzata da alcune versioni di Gemini/Nano Banana. In questo scenario l’immagine finale viene ottenuta tramite la tecnica dell’alpha blending:

Iw = αL + (1−α) Io

dove Iw rappresenta l’immagine watermarked, L il logo e Io l’immagine originale.

Il principio matematico è quindi banale da invertire se si conosce la maschera alpha e il logo originale. Ed è proprio ciò che implementa il tool Remove-AI-Watermarks: identificare dinamicamente posizione e scala del watermark e ricostruire i pixel sottostanti.

Come funzionano i watermark invisibili

Molto più sofisticati sono invece i watermark invisibili: sistemi come SynthID, StableSignature e TreeRing non inseriscono loghi evidenti, ma modificano distribuzioni statistiche, frequenze o pattern latenti dell’immagine. L’utente non vede nulla, ma un rilevatore specializzato può verificare la presenza della filigrana e quindi della firma apposta dal modello AI.

In teoria questi watermark dovrebbero sopravvivere a compressione JPEG, tagli, ridimensionamenti, screenshot, filtri leggeri ed editing superficiale. Nella pratica, però, la robustezza reale dipende da quanto aggressivo sia il processo di trasformazione applicato successivamente all’immagine.

SynthID: il sistema di Google pensato per sopravvivere alle manipolazioni

Tra i sistemi moderni, SynthID è probabilmente uno dei più evoluti e dibattuti: Google DeepMind lo ha sviluppato per incorporare, già durante la generazione dell’immagine, segnali impercettibili all’occhio umano all’interno delle sue componenti di frequenza, cioè nelle informazioni che descrivono variazioni di dettagli, texture e strutture visive. Le versioni più recenti, associate a Gemini 3 Pro e Imagen 4, includono payload molto più complessi rispetto alle implementazioni iniziali.

Secondo la documentazione tecnica citata dal progetto, SynthID v2 integrerebbe un payload di 136 bit, cioè un insieme di dati incorporati nel contenuto, che potrebbe essere associato a identificativi di sessione o di account. Non si parla più soltanto di etichettare un’immagine come “AI-generated“, ma di mantenere una forma di tracciabilità persistente dell’origine del contenuto.

Remove-AI-Watermarks affronta apertamente questo punto: eliminare il watermark da una copia dell’immagine non cancella eventuali registri lato server mantenuti dal provider che ha generato il contenuto.

Rigenerazione diffusion-based: perché “ricreare” l’immagine può rompere il watermark

La parte tecnicamente più interessante del progetto Remove-AI-Watermarks è il flusso di rigenerazione diffusion-based delle immagini prodotte con i modelli AI.

Invece di cercare di individuare e cancellare direttamente il watermark invisibile, il sistema prova a compromettere il pattern statistico che lo rappresenta, cioè la traccia matematica distribuita nell’immagine, rigenerando parzialmente il contenuto con un modello a diffusione: secondo il flusso dichiarato, l’immagine è prima ridimensionata alla risoluzione nativa del modello, poi compressa in uno spazio latente tramite VAE, un codificatore che trasforma l’immagine in una rappresentazione numerica più compatta; successivamente “arricchita” con una quantità controllata di rumore, sottoposta a diffusione inversa per ricostruire gradualmente l’immagine. Alla fine si procede con il decoding finale e con l’upscaling per riportarla a una risoluzione più elevata.

All’atto pratico, l’immagine è “ricreata” abbastanza da rompere il watermark ma non così tanto da alterarne drasticamente l’aspetto visivo.

L’idea centrale è che il watermark invisibile sia statisticamente più fragile della struttura semantica dell’immagine stessa. Se il processo di denoising, cioè la riduzione del rumore nell’immagine, ricostruisce texture, contorni e dettagli ma non conserva il pattern nascosto inserito originariamente, il rilevatore potrebbe non riuscire più a individuare il watermark.

Face protection e humanizer: il tentativo di simulare una fotografia reale

Uno dei problemi tipici della rigenerazione diffusion-based è la degradazione dei volti umani.

Il progetto Remove-AI-Watermarks dichiara di utilizzare YOLO per rilevare automaticamente persone e volti, estraendo le regioni “sensibili” prima della rigenerazione e reintegrandole successivamente con un’operazione di blending morbido. È una tecnica relativamente comune nei workflow professionali di image restoration e inpainting.

Molto più controversa è invece la funzione chiamata Analog Humanizer: l’applicazione non elimina soltanto il watermark ma altera statisticamente l’immagine affinché sembri provenire da una fotografia reale acquisita da sensore.

Il tool applica alle immagini effetti come grana della pellicola, cioè una leggera granulosità visiva simile a quella delle foto analogiche, aberrazione cromatica, ovvero piccoli aloni o disallineamenti dei colori ai bordi degli oggetti, micro-imperfezioni e alterazioni analogiche controllate: sono tutte modifiche che possono rendere meno affidabili i classificatori automatici addestrati a individuare gli artefatti tipici delle immagini generate con l’intelligenza artificiale.

Metadati AI: la parte più semplice da rimuovere

Se i watermark invisibili rappresentano la sfida tecnica più complessa, i metadati sono invece il bersaglio più banale. Molti sistemi AI incorporano informazioni esplicite nei file: prompt, seed, modello utilizzato, workflow, sampler, identificatori, provenance manifest, tag XMP. Alcuni social network utilizzano questi campi per mostrare badge come “made with AI”.

Il progetto Remove-AI-Watermarks dichiara di eliminare dati EXIF, chunk PNG, XMP, DigitalSourceType, manifest C2PA, JUMBF box e Content Credentials.

Da un punto di vista tecnico questa parte è relativamente semplice: i metadati sono spesso strutture standardizzate facilmente modificabili o rimosse.

Perché i watermark AI sono difficili da rendere robusti

Il lavoro svolto dall’autore di Remove-AI-Watermarks mette in evidenza come qualsiasi watermark sufficientemente invisibile debba alterare l’immagine in modo minimo. Ma se l’alterazione è minima, allora esiste quasi sempre una trasformazione capace di distruggerla preservando il contenuto percepito dall’occhio umano.

Adottando un watermark troppo “forte”, questo diventa visibile e degrada l’immagine; un watermark troppo “debole” diventa automaticamente fragile.

E questo vale soprattutto per i modelli diffusion-based moderni, che possono rigenerare immagini intere mantenendo elevata fedeltà visiva. Paradossalmente, gli stessi modelli AI usati per creare immagini possono diventare strumenti efficaci per rimuovere i marker di provenienza.

Unione Europea: AI Act e trasparenza obbligatoria

L’AI Act europeo introduce obblighi specifici di trasparenza per sistemi generativi e deepfake: l’articolo più rilevante è il 50, dedicato proprio agli obblighi informativi verso gli utenti.

Il principio generale è semplice: i contenuti sintetici devono essere riconoscibili; gli utenti devono sapere quando interagiscono con AI; i deepfake devono essere chiaramente etichettati. Il testo definitivo ha però subito rinvii e modifiche politiche tanto che la piena applicazione delle misure tecniche di marking è stata posticipata verso fine 2026.

Di fatto oggi non esiste ancora un obbligo tecnico uniforme europeo che imponga uno specifico standard di watermarking. Esiste invece un obbligo di risultato: garantire trasparenza.

La normativa europea non vieta esplicitamente gli strumenti di rimozione: la differenza fondamentale è l’intento e il contesto. Esiste infatti una distinzione giuridica cruciale tra strumento tecnologico e utilizzo illecito dello strumento, nel rispetto dei termini d’uso di ciascun servizio.

Lo stesso principio vale da anni per software di penetration testing, strumenti di reverse engineering, utilità di analisi dei pacchetti di traffico, framework utilizzati nella ricerca informatica per la realizzazione di exploit. In altre parole, un tool può essere perfettamente legittimo per ricerca, auditing o interoperabilità, ma diventare problematico se utilizzato per frode, impersonificazione o disinformazione.

Nel caso dei watermark AI, il rischio giuridico aumenta notevolmente quando la rimozione è effettuata per nascondere l’origine sintetica di un contenuto, aggirare policy di piattaforma, alterare materiale politico, creare falsa attribuzione, finalità commerciali ingannevoli.

Ti consigliamo anche

Link copiato negli appunti