Da semplice video a mondo 3D: l'AI Voyager di Tencent lascia tutti senza fiato

Il colosso tecnologico Tencent ha annunciato il rilascio di Voyager, un modello di Intelligenza Artificiale progettato per la generazione mondi 3D in modo completamente automatizzato, fissando un nuovo standard per prestazioni e innovazione in questo ambito.

Al cuore di questa rivoluzione si trova una pipeline automatizzata di elaborazione dati, elemento che distingue Voyager dai principali concorrenti internazionali. Grazie a un software proprietario sviluppato internamente a Tencent, il modello è in grado di analizzare autonomamente video esistenti, calcolando i movimenti di camera e la profondità di ciascun fotogramma senza necessità di intervento umano per l’etichettatura dei dati.

Voyager rappresenta l’evoluzione diretta di HunyuanWorld 1.0, inserendosi nell’ecosistema di soluzioni avanzate sviluppate da Tencent, che comprende anche strumenti come Hunyuan3D 2 per la generazione di oggetti tridimensionali a partire da descrizioni testuali e HunyuanVideo per la sintesi automatica di video. Questa integrazione all’interno dell’ecosistema Hunyuan garantisce una continuità tecnologica e la possibilità di sfruttare sinergie tra i diversi moduli, ampliando le opportunità di utilizzo in ambiti come il gaming, la formazione e l’intrattenimento digitale.

Come funziona Voyager

L’addestramento del modello Voyager è avvenuto su una vasta base dati composta da oltre 100.000 clip video, provenienti sia da riprese reali che da contenuti renderizzati tramite Unreal Engine. Questa strategia ha permesso di ottenere risultati straordinari nei principali test di settore, come dimostrato dal primato raggiunto nel benchmark WorldScore di Stanford. Con un punteggio di 77,62, Voyager ha superato nettamente concorrenti di rilievo come WonderWorld (72,69 punti) e CogVideoX-I2V (62,15 punti), distinguendosi in particolare per il controllo degli oggetti generati e la coerenza stilistica delle scene virtuali.

L’innovazione tecnologica introdotta da Tencent comporta tuttavia un costo computazionale elevato. Per generare mondi virtuali alla risoluzione di 540p, il sistema richiede almeno 60GB di memoria GPU, mentre per ottenere prestazioni ottimali è raccomandato l’utilizzo di 80GB. Questa richiesta di potenza calcolo GPU rappresenta una sfida per molti utenti, ma Tencent ha implementato il supporto all’inferenza parallela tramite il xDiT framework, che consente di distribuire il carico su più GPU e raggiungere velocità di generazione fino a 6,69 volte superiori rispetto all’uso di una singola unità.

Un altro aspetto cruciale riguarda la distribuzione e l’utilizzo del modello. Tencent ha reso disponibili i pesi di Voyager sulla piattaforma Hugging Face, accompagnati da codice compatibile sia per configurazioni a singola GPU che per sistemi multi-GPU. Tuttavia, la licenza Tencent impone restrizioni geografiche rilevanti: l’uso del modello è vietato nell’Unione Europea, nel Regno Unito e in Corea del Sud. Inoltre, le applicazioni commerciali che superano i 100 milioni di utenti attivi mensili necessitano di una licenza specifica rilasciata direttamente dall’azienda.

Da semplice video a mondo 3D: l'AI Voyager di Tencent lascia tutti senza fiato

Come funziona Voyager

Ti consigliamo anche

Apple Music arriva su ChatGPT

Amazon potrebbe investire 10 miliardi di dollari in OpenAI

Agenti AI in Windows 11: Microsoft fa marcia indietro sull’accesso ai file personali (ma non convince del tutto)

GPT Image 1.5: svolta per la generazione immagini su ChatGPT