Intelligenza artificiale NVidia genera immagini fotorealistiche partendo da semplici descrizioni

Si chiama GauGAN2 la soluzione appena presentata da NVidia e addestrata utilizzando un supercomputer e 10 milioni di immagini di alta qualità. Cos'è e come funziona.

Nel corso degli ultimi anni abbiamo presentato tante applicazioni in cui l’utilizzo dell’intelligenza artificiale lascia a bocca aperta. Abbiamo visto la relazione tra machine learning, deep learning, reti neurali e AI; abbiamo visto alcuni esempi di progetti di IA basati sull’utilizzo del browser web.

NVidia ha realizzato GauGAN2, ultima iterazione della rete neurale che consentiva di generare paesaggi quasi fotorealistici a partire da schizzi molto approssimativi.
Questa volta il sistema è in grado di comprendere la semantica delle frasi e generare immagini di alta qualità a partire da una descrizione in linguaggio naturale.

I tecnici dell’azienda fondata da Jen-Hsun Huang spiegano che GauGAN2 è supportata da un modello di deep learning che grazie all’addestramento è in grado di comprendere diversi tipi di richieste e trasformale in immagini.
Scrivendo ad esempio “un tramonto sulla spiaggia” oppure “le onde del mare che si infrangono sugli scogli” l’intelligenza artificiale identificherà ciò che desideriamo e creerà un’immagine altamente realistica che corrisponde perfettamente alla descrizione.
Chi non fosse soddisfatto del risultato oppure volesse aggiungere qualche dettaglio in più alla foto generata può semplicemente aggiungere degli aggettivi.

GAN è acronimo di Generative Adversarial Network: la rete neurale viene cioè addestrata con un approccio competitivo in modo che possa via via apprendere come generare nuovi dati aventi la stessa distribuzione di quelli usate nella fase di addestramento.
Il fatto che NVidia GauGAN2 riesca a comprendere la descrizione lasciata dall’utente e convertirla in immagini con qualità fotorealistica è davvero impressionante.

Per ottenere i risultati mostrati da NVidia GauGAN2 è stato sottoposto a un addestramento intensivo basato su ben 10 milioni di immagini di alta qualità. La società californiana ha detto di aver usato allo scopo il supercomputer NVidia Selene, un sistema che è classificato tra i primi 10 sistemi più potenti al mondo.

Per quanto riguarda l’interpretazione delle parole e il loro collegamento con immagini specifiche, i ricercatori si sono affidati a una rete neurale che è stata in grado di eseguire questo processo. Così quando la rete neurale legge “nebbia” sa esattamente quali immagini sono associate a quella parola e lo stesso vale ad esempio per altre parole come “inverno” o “sole”.

Per provare subito GauGAN2 e permettere alla prova l’intelligenza artificiale di NVidia si può visitare la pagina AI Demos quindi cliccare sul pulsante Launch interactive demo.
Per ottenere immagini fotorealistiche è fondamentale utilizzare termini inglesi.
Un video dimostrativo è pubblicato su YouTube a questo indirizzo.

L’applicazione NVidia Canvas integra gli ultimi progressi della tecnologia GauGAN ed è compatibile con le GPU GeForce RTX serie 20 e superiori.

Ti consigliamo anche

Link copiato negli appunti