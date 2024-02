È ancora una volta OpenAI a sorprendere la community tech con una novità che, stando alle prime reazioni sul web, ha lasciato tutti o quasi a bocca aperta. L’azienda ha annunciato Sora, un nuovo modello AI che può generare video realistici o fantasiosi partendo da un prompt testuale. Per i primi tempi, i video potranno avere una durata massima di 60 secondi.

Il modello di intelligenza artificiale può creare scene complesse, con più persone, diversi tipi di movimento e dettagli accurati sia del soggetto che di ciò che si vede sullo sfondo. Ma non è tutto, perché Sora – stando a quanto dichiarato da OpenAI – può anche generare video su un’immagine fissa e arricchire e/o estendere un video già esistente andando a “riempire” i fotogrammi mancanti.

Su X e nel post sul blog aziendale sono disponibili alcuni esempi, e sono davvero sbalorditivi. Certo, non è stata raggiunta la perfezione perché in alcuni casi sono visibili artefatti e anomalie (come il pavimento che si muove in modo sospetto oppure un gatto che per pochi secondi ha una zampa di troppo), ma nel complesso il risultato è impressionante.

Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf — OpenAI (@OpenAI) February 15, 2024

A differenza di ChatGPT, Sora non è al momento disponibile per tutti. Possono accedervi solo i “red teamer” che stanno già valutando il modello per potenziali rischi (disinformazione, contenuti che incitano all’odio e pregiudizi) e un numero ristretto di artisti visivi, designer e registi che dovranno poi condividere il proprio feedback con l’azienda.

Come già anticipato, Sora può commettere errori, e di questo ne è consapevole anche l’azienda. Sul suo sito web scrive infatti che il modello “potrebbe avere difficoltà a simulare accuratamente la fisica di una scena complessa e potrebbe non comprendere istanze specifiche di causa ed effetto. Ad esempio, una persona potrebbe dare un morso ad un biscotto, ma in seguito il biscotto potrebbe non presentare il segno del morso“.