ChatGPT: l'iniezione di prompt può compromettere la sicurezza dei chatbot IA

Tramite prompt-injection è possibile modificare il funzionamento dei chatbot IA e renderli poco sicuri: servono interventi mirati.
ChatGPT: l'iniezione di prompt può compromettere la sicurezza dei chatbot IA

ChatGPT e altri chatbot possono essere facilmente liberati dai loro limiti tramite quello che viene definito jailbreak: se l’accesso a Internet permette di visualizzare più dati dal Web al fine di migliorare la qualità degli output offerti dal sistema IA, il jailbreak rimuove i filtri posti dagli sviluppatori tramite prompt complessi al fine di ottenere risposte normalmente ritenute inaccettabili dall’intelligenza artificiale. Alcuni prompt possono però essere sfruttati per attacchi indiretti che comprometterebbero la sicurezza dei chatbot stessi.

ChatGPT e altri chatbot sono a rischio

A parlarne tramite Wired è Cristiano Giardina, imprenditore che ha sperimentato modi inediti per “sbloccare” le IA generative, tra cui “Bring Sydney Back”. Quest’ultimo progetto nasce in seguito alla cosiddetta prompt-injection, ovverosia l’uso di un prompt per violare i principi base di ChatGPT e altri chatbot, ovvero l’essere disponibile, onesto e innocuo. Secondo gli esperti di sicurezza, questo stratagemma permetterebbe a chiunque di parlare con un modello di linguaggio non vincolato, dando origine a conversazioni “accattivanti” e potenzialmente pericolose.

Sahar Abdelnabi, ricercatore presso il Centro CISPA Helmholtz, ha affermato che la stragrande maggioranza delle persone non si rende conto delle implicazioni di questa minaccia, in quanto qualsiasi funzionalità del modello di linguaggio permetterebbe l’accesso a molte forme di attacchi arbitrari per truffare altri individui e rubare dati sensibili.

ChatGPT OpenAI Logo prompt injection

Con plug-in e prompt particolari, peraltro, alcuni ricercatori sono riusciti ad accedere alle trascrizioni dei video di YouTube e ai messaggi precedentemente scritti in una conversazione con ChatGPT. L’ingegnere William Zhang aggiunge: “Se le persone creano applicazioni per fare in modo che l’LLM legga le e-mail e intraprenda azioni sulla base del contenuto delle e-mail, un utente malintenzionato potrebbe inviare risposte e messaggi con attacchi di prompt-injection”. In altre parole, con i prompt giusti si potrebbero compromettere la sicurezza e la privacy degli utenti, permettendo ai chatbot come ChatGPT di ignorare le istruzioni degli sviluppatori.

La stessa OpenAI è consapevole di questo problema, tanto che ha ammesso come GPT-4 possa essere soggetto a prompt-injection e jailbreak, e che al momento gli esperti non sono sicuri dei modi migliori per mitigare questi attacchi indiretti. Insomma, c’è ancora molto lavoro da fare.

Fonte: Wired

Ti consigliamo anche

Link copiato negli appunti