ChatGPT senza filtri: il gioco di ruolo DAN e alcune parole magiche fanno saltare le restrizioni

ChatGPT mostra il lato peggiore di sé, quello che gli sviluppatori di OpenAI avevano abilmente cercato di mettere da parte evitando che potesse venire a galla. Un semplice gioco di ruolo, DAN, provoca una sorta di jailbreaking del modello.

OpenAI, azienda senza scopo di lucro che, tra i vari progetti, si occupa anche di chatGPT e in generale di nuovi e sempre più potenti modelli generativi, ha reso la sua intelligenza artificiale particolarmente attenta nel non offrire risposte che possano sfociare in conversazioni pericolose.
ChatGPT utilizza uno schema conversazionale che permette agli utenti di intavolare lunghe discussioni: ecco, il chatbot evita di fornire commenti che potrebbero sfociare in considerazioni razziste, sessiste, omofobe, misogine, negazioniste, complottiste e così via.
Il lato oscuro di ChatGPT esiste ma è stato abilmente messo a tacere. È infatti un po’ il problema di tutti i modelli generativi: possono manifestare comportamenti censurabili per via dei dati utilizzati nella fase di addestramento.

Ogni modello, come GPT-3.5 usato da ChatGPT, è alimentato con grandi quantità di dati che riflettono le inclinazioni e le convinzioni presenti nella nostra società.
Se i dati includono pregiudizi o stereotipi, il modello può fare propri tali bias e utilizzarli per generare contenuti che inevitabilmente ne risulteranno a loro volta contagiati.

Le caratteristiche di neutralità e inclusività che gli sviluppatori di ChatGPT volevano assicurare sono venute meno con un test che hanno condotto alcuni utenti e del quale si è parlato molto su Reddit.
In breve, con delle semplici istruzioni testuali, a ChatGPT viene ordinato di essere meno “diplomatico” e scrollarsi di dosso tutte le restrizioni imposte da OpenAI. Viene chiesto al modello di immergersi in un gioco di ruolo chiamato DAN (Do Anything Now) che prevede un meccanismo a gettoni.
Ogni volta che ChatGPT risponde in modo neutrale e distaccato, viene puntualmente redarguito per indurlo a modificare il suo comportamento.

L’idea non è nuova: già a dicembre 2022 era stata presentata l’idea di DAN e Awesome ChatGPT Prompts su GitHub aveva contribuito ad aprire il vaso di Pandora ma adesso l’argomento è talmente diventato virale tanto che OpenAI è già al lavoro per mettere una toppa.

Nel frattempo, però, la versione jailbreaked di ChatGPT ha iniziato a dare risposte false, inappropriate e del tutto inaccettabili raccontando che l’amministrazione Biden sarebbe responsabile dell’insabbiamento delle notizie sui contatti con gli alieni, invitando a sostenere con delle donazioni le associazioni dei produttori di armi, affannandosi a sostenere che la Terra è piatta, esaltando ad esempio le abilità di Vladimir Putin, parlando male della Cina e del popolo asiatico. Alcuni esempi sono stati pubblicati da Fast Company.

Ti consigliamo anche

Link copiato negli appunti