OpenAI, la compañía creadora de ChatGPT, presentó su nuevo modelo de inteligencia artificial (IA): Sora.
Este modelo representa la primera incursión de OpenAI en la generación de videos mediante inteligencia artificial, ampliando su repertorio de herramientas tecnológicas que incluyen el generador de texto ChatGPT y el generador de imágenes DALL-E.
Este nuevo desarrollo de IA tiene la capacidad de generar videos cortos a partir de texto. La que ha llamado la atención de Sora, es la alta calidad de los clips que es capaz de generar.
“Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo entiende no solo lo que el usuario ha pedido en la indicación, sino también cómo existen esas cosas en el mundo físico.
“El modelo tiene una comprensión profunda del lenguaje, lo que le permite interpretar las indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que mantienen con precisión los personajes y el estilo visual”, explica OpenAI en su sitio web.
Sora is here! It's a diffusion transformer that can generate up to a minute of 1080p video with great coherence and quality. @_tim_brooks and I have been working on this at @openai for a year, and we're pumped about pursuing AGI by simulating everything! https://t.co/DzbyReLJEc pic.twitter.com/IFqfh8H6FW
— Bill Peebles (@billpeeb) February 15, 2024
¿Qué es Sora OpenAI?
Sora es un modelo de lenguaje multimodal que puede generar videos realistas a partir de descripciones textuales.
Los usuarios simplemente necesitan escribir una descripción de la escena que desean ver, y Sora se encarga de darle vida. El modelo puede crear videos de hasta 60 segundos, con una calidad comparable a la de un video producido por un equipo profesional.
https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024
¿Cómo funciona?
Utiliza un modelo de difusión para generar videos. Esto implica que comienza con un video que parece estar lleno de ruido estático y lo suaviza gradualmente hasta obtener una versión pulida y coherente.
“Sora es capaz de generar videos enteros de una vez o extender videos generados para hacerlos más largos. Al dar al modelo una previsión de muchos cuadros a la vez, hemos resuelto un problema desafiante de asegurar que un sujeto permanezca igual incluso cuando sale temporalmente de la vista.
“Similar a los modelos GPT, Sora utiliza una arquitectura transformer, desbloqueando un rendimiento de escalado superior”, explica la compañía que encabeza Sam Altman.
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
¿Cómo usar Sora?
Los usuarios pueden indicar a Sora que genere videos escribiendo simplemente unas pocas oraciones, eligiendo entre un estilo fotorrealista o animado, y obteniendo resultados sorprendentes en cuestión de minutos.
“Además de poder generar un video únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un video a partir de ella, animando los contenidos de la imagen con precisión y atención al pequeño detalle. El modelo también puede tomar un video existente y extenderlo o llenar cuadros faltantes”.
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
¿Cuándo estará disponible Sora? Fecha de lanzamiento
Este modelo destaca sobre competidores como Midjourney y Stable Diffusion por su capacidad para crear videos más largos, dinámicos y fluidos. A diferencia de los modelos de la competencia, que pueden parecer una secuencia de imágenes de IA en stop-motion, Sora logra producir videos que se sienten completamente reales y cohesivos.
Sin embargo, OpenAI ha reconocido que Sora todavía tiene áreas que requieren mejora, incluida su comprensión de la causa y el efecto, así como la conciencia espacial. Estos desafíos, junto con las preocupaciones de seguridad relacionadas con el potencial para crear deepfakes engañosos, son aspectos críticos en los que OpenAI aún trabaja.
Definitivamente estamos entrando en una era en la que será casi imposible diferenciar un video real de uno falso. OpenAI lanzó Sora, un modelo d inteligencia artificial que crea imágenes a partir de un texto. Fascinante y aterrador. pic.twitter.com/g1k3dHi4zF
— Félix de Bedout (@fdbedout) February 15, 2024
Sora aún se encuentra en fase de desarrollo y no está disponible públicamente. OpenAI ha comenzado a ofrecer acceso a un pequeño grupo de investigadores y creativos para que prueben la herramienta y brinden comentarios. Se espera que Sora se lance al público en general en una fecha aún por determinar.
LEE TAMBIÉN. 11 consejos para hacer imágenes creativas con DALL-E
Videos generados por Sora OpenAI
En redes sociales se han viralizado algunos videos generados con Sora, los cuales muestran una muy alta calidad.
Sam Altman, CEO de OpenAI, compartió algunos de los videos generados con su nuevo modelo.