ChatGPT è nudo, scoperti i segreti della sua sandbox

ChatGPT

La piattaforma sulla quale è basato il chatbot ChatGPT di OpenAI poggia il suo funzionamento su un componente software chiamato sandbox. La sandbox è un’area protetta, isolata dal resto dell’infrastruttura di OpenAI, all’interno della quale sono espletate tutte le attività relativa a un singolo account utente. ChatGPT funziona al di sopra di un’istanza leggera di un vero e proprio sistema operativo GNU/Linux.

La sandbox di ChatGPT è concepita in maniera tale da bloccare l’utilizzo di file e cartelle essenziali per il funzionamento della piattaforma, impedire l’accesso alla rete Internet, evitare l’utilizzo di comandi e istruzioni che possano essere sfruttati per far emergere eventuali falle di sicurezza o superare il perimetro della sandbox stessa.

Marco Figueroa, parte del team di Mozilla 0DIN, network creato per investigare sulle vunerabilità zero-day, ha scoperto che nel caso di ChatGPT è possibile per un utente guadagnare un accesso esteso al contenuto della sandbox, dimostrando di riuscire anche a caricare ed eseguire codice Python lato server.

I segreti della sandbox di ChatGPT

Mentre lavorava su un progetto Python con ChatGPT, ad un certo punto Figueroa ha ricevuto in risposta uno strano errore Directory not found. Questo comportamento anomalo lo ha indotto ad approfondire, verificando se fosse in qualche modo possibile interagire con la sottostante sandbox.

Precisiamo che non è la prima volta che viene realizzato uno studio del genere. Già a novembre 2023 raccontavamo di come la sandbox di ChatGPT fosse accessibile utilizzando semplicemente l’interfaccia Web del chatbot di OpenAI.

Utilizzando comandi come ls e list files, tuttavia, Figueroa è riuscito a ottenere una lista di tutte le cartelle componenti il file system della sandbox di ChatGPT, compresa la directory /home/sandbox/.openai_internal/ contenente configurazioni importanti e informazioni di setup.

Il ricercatore si è poi accorto di poter caricare file arbitari nella cartella /mnt/data, così come scaricare oggetti da qualunque altra directory. La sandbox sembra comunque proteggere correttamente la cartella /root e vari file come /etc/shadow.

Eseguire codice Python nella sandbox

Diversamente rispetto agli studi condotti da altri ricercatori in passato, l’esperto di Mozilla 0DIN ha avuto successo nell’eseguire codice Python entro la sandbox di ChatGPT.

Nello specifico, Figueroa ha caricato un semplice script Python che stampa la stringa “Hello, World!” e lo ha eseguito. Immediatamente, il messaggio di benvenuto è apparso sullo schermo.

Per ovvi motivi legali, il ricercatore si è astenuto dal caricare sul server OpenAI script “malevoli” che avrebbero potuto essere sfruttati per provare a superare i limiti della sandbox e attivare comportamenti più aggressivi.

Possibile interagire anche con il playbook di ChatGPT

Figueroa ha scoperto che grazie alla tecnica del prompt engineering è di fatto possibile scaricare il playbook di ChatGPT ovvero il componente che governa il comportamento del chatbot, definendo le regole di base da applicare per fornire risposte e comporre l’output.

Il playbook è pensato per creare fiducia, spiegando agli utenti come ChatGPT crea le sue risposte. Tuttavia, il ricercatore Mozilla spiega che esso può essere utilizzato anche per rilevare informazioni utili a superare le salvaguardie imposte dai tecnici di OpenAI.

“I modelli configurati utilizzando istruzioni riservate o dati sensibili possono andare incontro a rischi se gli utenti riuscissero ad accedere a queste informazioni proprietarie“, ha osservato Figueroa.

OpenAI è consapevole delle segnalazioni

Il ricercatore conferma di aver segnalato privatamente al team di OpenAI un totale di cinque problematiche. Di esse, l’azienda guidata da Sam Altman sembra aver espresso interesse solamente per una vulnerabilità. Al momento non sembrano esserci piani per rafforzare l’accesso alla sandbox dall’interfaccia di ChatGPT.

La buona notizia è che la sandbox appare sufficientemente sicura: tutte le azioni poste in essere dal ricercatore, infatti, rimangono limitate all’ambiente isolato facente capo al singolo utente.

Credit immagine in apertura: iStock.com – Anastasiia Voronina