Google ha presentato Gemini Omni durante il Google I/O 2026, una nuova famiglia di modelli multimodali capace di trasformare testo, immagini, audio e video in filmati generati dall’Intelligenza Artificiale.
La svolta non riguarda uno strumento aggiuntivo, ma un cambio architetturale: un unico sistema in grado di comprendere e manipolare più tipi di media contemporaneamente. Il primo modello disponibile è Gemini Omni Flash, versione ottimizzata per clip brevi e modifiche iterative in tempo reale, già attiva nell’app Gemini, in YouTube Shorts e nella piattaforma creativa Flow.
Come funziona Gemini Omni e cosa lo distingue da Veo
Il principio centrale è la generazione “any-to-any”: l’utente può fornire nello stesso prompt una fotografia, una clip video, una traccia audio, una descrizione testuale o una combinazione di questi elementi, e il modello produce un output coerente.
A differenza di Veo, focalizzato principalmente sulla generazione video da testo e immagini, Gemini Omni integra comprensione semantica, memoria contestuale e rendering visuale nella stessa architettura. Google e DeepMind parlano esplicitamente di world model, un sistema capace di simulare comportamento fisico, coerenza spaziale e continuità temporale tra i frame.
Nelle demo presentate al Google I/O, il modello ha generato video completi da prompt semplici, incluso un filmato in stile claymation sul folding delle proteine con voce narrante e coerenza visiva tra le scene.
La piattaforma supporta anche modifiche conversazionali multi-turn: l’utente può cambiare illuminazione, angolazione della telecamera o elementi della scena usando linguaggio naturale, senza ricreare il video da zero. Questo approccio dovrebbe ridurre problemi comuni nei generatori attuali, come mani deformate, oggetti che cambiano forma tra i frame o errori prospettici.
Avatar digitali, SynthID e limiti tecnici
Google introduce anche la possibilità di creare avatar personali utilizzabili nei video generati, con un livello di integrazione più profondo rispetto a soluzioni simili già offerte da OpenAI con Sora o da startup come HeyGen e Synthesia.
Per limitare gli abusi, la funzione richiede una procedura di onboarding con scansione del volto: gli utenti devono registrare video reali pronunciando sequenze numeriche casuali per verificare identità e presenza fisica. Tutti i contenuti prodotti tramite Gemini Omni includono inoltre il watermark digitale SynthID, sviluppato da DeepMind per identificare materiale sintetico anche dopo compressione o editing.
Sul fronte dei limiti, Gemini Omni Flash genera attualmente clip di circa 10 secondi, con estensioni previste nei prossimi aggiornamenti. La durata contenuta non dipende solo dai costi computazionali: mantenere coerenza temporale su migliaia di frame consecutivi aumenta rapidamente il rischio di drifting visivo e artefatti generativi. La qualità delle prime demo appare superiore a molti modelli consumer disponibili oggi, in particolare nella gestione del testo integrato nelle scene, ma restano limitazioni tipiche: dettagli anatomici instabili e variazioni impreviste negli oggetti complessi.
Per Google l’obiettivo dichiarato è integrare video generativo avanzato direttamente dentro YouTube, Android, Workspace e Search, distribuendo strumenti creativi AI a miliardi di utenti senza passare da piattaforme esterne.