OpenAI lancia HealthBench: il benchmark per l'AI medica

OpenAI introduce HealthBench, un modello open-source per valutare risposte AI in ambito sanitario, con supporto multilingue e 26 specialità.
OpenAI lancia HealthBench: il benchmark per l'AI medica

OpenAI ha di recente lanciato HealthBench, un nuovo benchmark IA open-source progettato per valutare l’accuratezza delle risposte dei modelli dell’Intelligenza Artificiale applicata al settore sanitario. Questo strumento, sviluppato con il contributo di 262 medici provenienti da 60 paesi, rappresenta un importante passo avanti nell’integrazione affidabile dell’AI nell’ambito medico.

La piattaforma si basa su 5.000 conversazioni realistiche e utilizza una griglia di valutazione creata appositamente da professionisti della salute. Le risposte dei modelli vengono analizzate e valutate tramite il sistema GPT-4.1, che assegna punteggi ponderati in base all’expertise medica.

In un contesto sempre più competitivo tra i giganti dell’AI, il modello o3 di OpenAI si è distinto, ottenendo un punteggio del 60% e posizionandosi al vertice della classifica. Questo risultato supera i punteggi di Grok, sviluppato da Elon Musk, che ha raggiunto un rispettabile 54%, e di Gemini 2.5 Pro di Google, che si è fermato al 52%.

HealthBench supporta 49 lingue e 26 specialità mediche

Un esempio pratico condiviso da OpenAI evidenzia l’efficacia di HealthBench. In una simulazione in cui un anziano viene trovato privo di sensi ma respirante, il sistema ha fornito istruzioni dettagliate per la gestione dell’emergenza. Questa risposta è stata successivamente analizzata nei minimi dettagli, ricevendo un punteggio del 77%. Questo esempio dimostra la capacità del sistema di affrontare situazioni complesse con precisione e competenza.

Una delle caratteristiche distintive di HealthBench è la sua versatilità linguistica e specialistica. Il sistema supporta 49 lingue diverse, incluse alcune meno diffuse come l’Amarico e il Nepalese, rendendolo accessibile a un’ampia gamma di utenti in tutto il mondo. Inoltre, copre 26 specialità mediche, che spaziano dalla neurochirurgia all’oftalmologia, rendendolo uno strumento altamente specializzato e adattabile a molteplici esigenze cliniche.

Nonostante l’importanza dell’annuncio, OpenAI ha scelto di mantenere un profilo basso, evitando di rilasciare ulteriori dichiarazioni. Questo approccio ha lasciato aperte numerose domande sul futuro della tecnologia e sul suo potenziale impatto nel panorama sanitario globale.

Ti consigliamo anche

Link copiato negli appunti