Sora: Creando video a partir de texto

Estamos enseñando a la inteligencia artificial a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real.

Presentamos a Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y cumpliendo con la indicación del usuario.

Hoy, Sora está disponible para los equipos de red para evaluar áreas críticas de daños o riesgos. También estamos otorgando acceso a varios artistas visuales, diseñadores y cineastas para obtener retroalimentación sobre cómo avanzar en el modelo para que sea de mayor ayuda para los profesionales creativos.

Estamos compartiendo nuestro progreso en la investigación temprano para comenzar a trabajar con y obtener retroalimentación de personas fuera de OpenAI y para dar al público una idea de cuáles son las capacidades de la IA que están en el horizonte.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha pedido en la indicación, sino también cómo esas cosas existen en el mundo físico.

El modelo tiene un profundo entendimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un video generado que mantienen con precisión a los personajes y el estilo visual.

El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y puede no entender casos específicos de causa y efecto. Por ejemplo, una persona podría darle un mordisco a una galleta, pero después la galleta podría no tener una marca de mordisco.

El modelo también puede confundir detalles espaciales de una indicación, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que ocurren a lo largo del tiempo, como seguir una trayectoria específica de la cámara.