SDXL Turbo, il modello generativo Text-to-Image che lavora in tempo reale

Stability AI è conosciuta per il suo prodotto di punta chiamato Stable Diffusion, un modello di intelligenza artificiale generativa open source. Il modello è noto per la sua capacità di generare immagini ad alta risoluzione da semplici prompt di testo. Gli ingegneri di Stability AI stanno inoltre sviluppando e migliorando altri modelli generativi capaci di produrre testi, musica, oggetti 3D e molto altro ancora. SDXL Turbo è un modello innovativo che, come vediamo più avanti, punta tanto sulle performance.

Due parole sui modelli generativi basati sul processo di diffusione

I modelli come Stable Diffusion sono di solito piuttosto lenti nel generare immagini a partire dall’input dell’utente a causa della complessità del processo di generazione. Il processo di diffusione, da cui prende il nome Stable Diffusion, coinvolge la modifica graduale dell’immagine inizialmente utilizzata in modo da rendere l’output più conforme al prompt. In termini semplici, il modello apporta piccole modifiche pixel per pixel all’immagine in modo iterativo.

Il modello generativo utilizza inoltre diverse tecniche di ottimizzazione, come la discesa del gradiente, per regolare i parametri dell’immagine in modo che rispondano meglio alle specifiche fornite dall’utente. Svolgendo più iterazioni successive, il modello può migliorare progressivamente la qualità dell’immagine.

SDXL Turbo: cos’è e come funziona il modello che genera immagini in tempo reale

Stability AI rivoluziona ancora una volta il mondo delle soluzioni basate sull’intelligenza artificiale presentando un modello, SDXL Turbo, capace di generare immagini a partire da descrizioni testuali riducendo drasticamente il tempo necessario per l’operazione.

L’innovazione principale di SDXL Turbo risiede in una nuova tecnologia di “distillazione” che consente la generazione di immagini in un solo passo, con una qualità senza precedenti, riducendo il numero di passaggi necessari da 50 a uno. Tant’è vero che Stability AI sorprende con un’applicazione di tipo generate-as-you-type.

Con la collaborazione di Clipdrop, da oggi è infatti possibile uno strumento Web che crea immagini di qualità in tempo reale, via via che si digita un testo. Provate a collegarvi con la pagina dedicata su Clipdrop, effettuate il login quindi iniziate a digitare qualcosa, anche in italiano, nel campo Enter your prompt: il modello SDXL Turbo crea una nuova immagine man mano che si scrive il prompt e si perfeziona la propria richiesta.

SDXL Turbo, nuovo modello text-to-image di Stability AI

Tecnologia di distillazione: Adversarial Diffusion Distillation (ADD)

La tecnologia chiave alla base del funzionamento di SDXL Turbo è chiamata Adversarial Diffusion Distillation (ADD). Il processo di distillazione consente al modello di sintetizzare le immagini in un solo passo, consentendo la generazione di output testo-immagine in tempo reale senza compromettere la fedeltà del campionamento.

Confrontato con diverse varianti di modelli di diffusione, tra cui StyleGAN-T++, OpenMUSE, IF-XL, SDXL e LCM-XL, SDXL Turbo ha dimostrato di riuscire a superare modelli multi-step all’avanguardia con requisiti computazionali notevolmente inferiori senza compromettere la qualità dell’immagine restituita all’utente.

SDXL Turbo presenta significativi miglioramenti nella velocità di inferenza. Su una GPU A100, è in grado di generare un’immagine 512×512 pixel in 207 ms (di questo tempo, 67 ms sono impiegati per un singolo passaggio di valutazione).

Al momento, SDXL Turbo è rilasciato sotto una licenza speciale che consente le attività di ricerca e gli utilizzi personali ma che vieta l’impiego in ambito commerciale. Gli interessati possono comunque scaricare i pesi del modello e il codice sorgente dalla piattaforma Hugging Face.