Negli ultimi mesi si è acceso un vivace dibattito sull’impiego dei LLM nel campo della salute pubblica, soprattutto per quanto riguarda la loro capacità di fornire diagnosi accurate e raccomandazioni affidabili in contesti reali.

Un recente studio pubblicato su Nature Medicine getta nuova luce sulle reali performance di questi sistemi, mettendo in evidenza criticità che meritano attenzione sia da parte degli sviluppatori sia dei professionisti sanitari e degli utenti finali.

I dati parlano chiaro: l’accuratezza delle diagnosi generate dai LLM si ferma a meno del 34,5% nei casi reali, mentre solo il 44,2% dei suggerimenti di follow-up risulta appropriato. Numeri che, a una prima lettura, sembrano smentire le aspettative create dai risultati ottenuti nei test accademici standardizzati. Il lavoro, condotto su un campione di 1.298 partecipanti nel Regno Unito, rivela un distacco netto tra le prestazioni teoriche e l’efficacia concreta di strumenti come ChatGPT e Llama 3 quando vengono utilizzati dal pubblico per ricevere raccomandazioni mediche.

ChatGPT e Llama 3 sono dei pessimi “medici”

Un aspetto particolarmente critico emerso dallo studio riguarda la qualità delle informazioni fornite dagli utenti. Su 30 conversazioni analizzate, in oltre la metà dei casi le descrizioni iniziali dei sintomi risultano frammentarie o incomplete, portando a risposte poco precise da parte dei chatbot. In alcuni scenari, modelli come Llama 3 hanno addirittura peggiorato la qualità della risposta dopo aver ricevuto ulteriori dettagli, introducendo errori in fase di chiarimento.

Il nodo centrale di questa problematica è rappresentato dal meccanismo di interazione: la capacità dei LLM di produrre risposte corrette dipende fortemente dalla chiarezza e dalla completezza dei dati forniti. Quando il contesto clinico viene comunicato in modo approssimativo, la probabilità di errore aumenta in modo significativo. Tuttavia, questi limiti non devono portare a una bocciatura tout court della tecnologia. Al contrario, lo studio su Nature Medicine suggerisce che i LLM possano diventare strumenti preziosi se utilizzati in modo consapevole e sotto regole chiare e stringenti.

Sul fronte dei rischi clinici, emergono due facce della stessa medaglia: da un lato la falsa rassicurazione, che può indurre un paziente a rimandare una visita per una condizione seria; dall’altro, l’allarmismo ingiustificato, che genera ansia e sovraccarica inutilmente i servizi sanitari. È per questo motivo che la comunità medica continua a raccomandare con fermezza il consulto con professionisti qualificati in presenza di sintomi rilevanti o persistenti, ricordando che le raccomandazioni mediche automatiche non possono sostituire il giudizio clinico.

Nonostante le criticità, il settore tecnologico guarda con ottimismo a possibili soluzioni. Le aziende stanno infatti lavorando per proporre soluzioni più verticali, come annunciato di recente da Amazon. Nello specifico, il colosso tecnologico ha presentato al pubblico Health AI, un assistente virtuale sanitario specificatamente realizzato per supportare il lavoro dei medici “in carne e ossa”.