GPT-5: cos'è e quando potrebbe arrivare il nuovo modello generativo OpenAI

Cosa ci si aspetta dalla futura incarnazione del modello generativo OpenAI per l'intelligenza artificiale. Cosa cambia rispetto alle versioni attuali.

Sam Altman, il numero uno di OpenAI, ha recentemente dichiarato che l’era dei modelli generativi di grandi dimensioni è già finita lasciando intendere che non ci sarebbe stato un GPT-5 per un bel po’ di tempo, almeno non nel 2023.

In realtà stanno bollendo in pentola svariate novità che sembrano guardare a un nuovo modello generativo ancora più potente rispetto al GPT-4 utilizzato anche nella più recente incarnazione del chatbot ChatGPT. Stando alle indiscrezioni che arrivano da fonti interne a OpenAI stessa, intorno al mese di ottobre 2023, dovrebbe innanzi tutto debuttare GPT-4.5 ovvero una versione intermedia del modello generativo che farà proprio l’approccio multimodale.

Lo abbiamo visto di recente con Meta ImageBind: un modello generativo per l’IA con capacità multimodali è in grado di generare e comprendere più modalità di informazione. In generale, le modalità si riferiscono ai diversi canali sensoriali o tipi di dati, come il testo, le immagini, l’audio o addirittura i video. Un modello generativo multimodale può lavorare con più di una di queste modalità contemporaneamente, integrando e combinando le informazioni provenienti da diverse fonti per generare output coerenti e completi.

Ad esempio, un modello generativo multimodale potrebbe essere in grado di generare una descrizione testuale dettagliata di un’immagine o di generare un’immagine a partire da una descrizione testuale. Questo richiede al modello di comprendere sia il contenuto dell’immagine che il significato del testo per produrre un’uscita coerente e significativa.

Le capacità multimodali possono essere estese anche ad altre modalità, come la traduzione multimodale, dove il modello può tradurre il testo da una lingua all’altra incorporando informazioni visive o audio contestuali. Allo stesso modo, un modello generativo multimodale può essere utilizzato per la sintesi vocale di testo o per la generazione di dialoghi che includono testo, immagini e audio.

Secondo Meta, i modelli generativi multimodali potranno arrivare a creare contenuti immersivi per la realtà virtuale: i principali player del settore sono in fermento quindi sarà interessante capire cosa farà OpenAI in questo segmento e se vedremo applicazioni AI con un forte carico innovativo in molti settori, finora inesplorati, proprio con il rilascio di GPT-5.

Il passaggio seguente sarà sviluppare una AGI (Artificial General Intelligence) ovvero un tipo di intelligenza artificiale che è in grado di “comprendere”, “apprendere” e svolgere una vasta gamma di attività intellettuali simili a quelle svolte dagli esseri umani. A differenza dei sistemi di intelligenza artificiale specializzati, che sono progettati per svolgere specifici compiti o gestire problemi specifici, AGI aspira a una forma di intelligenza artificiale generale che possa essere applicata in modo flessibile a un ampio ventaglio di attività.

Una AGI dovrebbe essere in grado di affrontare situazioni nuove o compiti che non ha mai incontrato prima, utilizzando la sua intelligenza generale per trarre conclusioni e prendere decisioni in modo autonomo.

L’intento di OpenAI sarebbe quello di plasmare questa superintelligenza proprio con l’arrivo di GPT-5, che secondo alcune stime non verrebbe presentato sul mercato prima del 2024. Anche perché lo stesso GPT-4 è un “cantiere aperto”: il tempo di inferenza di GPT-4 è molto elevato ed è piuttosto costoso da gestire. Lo stesso accesso ai plugin di ChatGPT e alla funzionalità di navigazione in Internet sono ancora in versione beta.

Il futuro modello GPT-5 dovrebbe comunque ridurre il tempo di inferenza, migliorare l’efficienza, contrastare il problema delle allucinazioni ovvero la tendenza dei modelli a generare output che non corrispondono alla realtà o che contengono informazioni immaginarie o inventate.

Secondo OpenAI, GPT-4 ha l’82% in meno di probabilità di rispondere ai prompt degli utenti con contenuti imprecisi o fuori luogo; ha inoltre una precisione vicina all’80% in tutte le categorie di test facendo evidenziare un netto progresso nella lotta alle allucinazioni. Con GPT-5, si prevede che la società guidata da Altman ridurrà le allucinazioni a meno del 10%: una vera e propria “pietra miliare” per i modelli LLM.

Un’enorme fetta delle entrate di OpenAI proviene da imprese e aziende quindi GPT-5 non deve essere solo più economico ma anche più veloce per restituire l’output. Gli sviluppatori stanno già rimproverando il fatto che le chiamate API GPT-4 spesso smettono di rispondere e sono costretti a utilizzare il modello GPT-3.5 in produzione: con le future evoluzioni del modello generativo, questo dovrebbe cambiare.

Infine un’ulteriore novità: registrando l’enorme successo del modello generativo open source LLaMA di Meta e di altre soluzioni, anche derivate, a sorgente aperto, OpenAI avrebbe cambiato la sua posizione. Vi ricordate anche quanto dichiarato da un dipendente Google che faceva presente che i modelli open source per l’intelligenza artificiale avrebbero superato quelli di OpenAI e Google stessa?

Ebbene, stando sempre a fonti vicine a OpenAI, l’azienda starebbe lavorando su un nuovo modello di intelligenza artificiale open source che sarà presto rilasciato al pubblico. Non ci sono informazioni sulle sue capacità e su quanto sarà competitivo rispetto a GPT-3.5 o GPT-4, ma è davvero un gradito cambiamento.

Ti consigliamo anche

Link copiato negli appunti