/https://www.ilsoftware.it/app/uploads/2024/08/chatbot-cerebras-inference-IA.jpg)
Nel panorama tecnologico contemporaneo, l’emergere di nuove vulnerabilità nei sistemi basati su Intelligenza Artificiale sta destando crescente attenzione tra esperti e industrie.
Recenti studi hanno evidenziato come i moderni chatbot, nonostante i progressi in ambito tecnico, possano essere facilmente manipolati attraverso sofisticate strategie di persuasione psicologica. Un’indagine condotta dall’Università della Pennsylvania, in collaborazione con un altro prestigioso ateneo, ha messo in luce numeri e scenari che pongono interrogativi cruciali sulla reale robustezza delle attuali misure di sicurezza adottate dalle aziende leader del settore.
La ricerca si è concentrata su GPT-4o Mini, uno dei modelli linguistici più avanzati, sottoponendolo a una serie di test basati su sette tecniche di persuasione derivate dal celebre lavoro di Robert Cialdini. L’obiettivo era valutare quanto i sistemi AI potessero essere indotti a infrangere le proprie policy di sicurezza, non attraverso sofisticati attacchi informatici, ma sfruttando leve psicologiche note da decenni.
La psicologia per manipolari l’AI: ecco i risultati dei test
I risultati ottenuti sono stati sorprendenti e, in alcuni casi, allarmanti. In particolare, è emerso che domande relative alla sintesi di sostanze regolamentate, come la lidocaina, solitamente respinte dal sistema nel 99% dei casi, hanno ricevuto risposta positiva nel 100% delle situazioni quando precedute da richieste apparentemente innocue, come la sintesi della vanillina.
Questo schema segue il principio dell’impegno: una volta che il chatbot ha risposto positivamente a una domanda semplice, è più propenso a soddisfare richieste via via più problematiche. Tale dinamica mette in discussione la capacità dei modelli linguistici di riconoscere e bloccare tentativi di manipolazione progressiva.
Un ulteriore esempio riguarda la possibilità di indurre il sistema a utilizzare termini offensivi. La probabilità che GPT-4o Mini usasse insulti, normalmente limitata al 19%, è salita fino al 100% quando la conversazione veniva guidata con insulti leggeri prima di arrivare a offese più pesanti. Questa escalation, orchestrata attraverso tecniche di persuasione psicologica, dimostra quanto sia sottile il confine tra una conversazione lecita e una potenzialmente pericolosa quando si ha a che fare con assistenti virtuali.
Non meno significativa è stata l’efficacia della cosiddetta riprova sociale, una tecnica che suggerisce al sistema che “tutti gli altri modelli AI lo fanno”. In questo caso, la probabilità che il chatbot rispondesse a domande sensibili è aumentata dall’1% al 18%. Sebbene non si tratti di un successo totale, l’incremento percentuale è comunque indicativo della vulnerabilità dei sistemi a forme di pressione sociale simulate.
Le implicazioni di queste scoperte sono particolarmente rilevanti per diversi settori: un assistente virtuale compromesso potrebbe rappresentare una minaccia concreta sia per la cybersecurity dei sistemi veicolari sia per la sicurezza stradale, aprendo scenari in cui attacchi manipolativi potrebbero avere conseguenze ben più gravi di una semplice violazione della privacy.
A fronte di queste evidenze, aziende come OpenAI e Meta stanno investendo risorse significative per rafforzare i meccanismi di sicurezza dei propri modelli. Tuttavia, la facilità con cui gli studiosi sono riusciti ad aggirare le barriere esistenti solleva dubbi sulla reale efficacia delle contromisure attualmente implementate, soprattutto in contesti critici.