Sora: Creando video a partir de texto

contenido

Estamos enseñando a la inteligencia artificial a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real.

Presentamos a Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y cumpliendo con la indicación del usuario.

Hoy, Sora está disponible para los equipos de red para evaluar áreas críticas de daños o riesgos. También estamos otorgando acceso a varios artistas visuales, diseñadores y cineastas para obtener retroalimentación sobre cómo avanzar en el modelo para que sea de mayor ayuda para los profesionales creativos.

Estamos compartiendo nuestro progreso en la investigación temprano para comenzar a trabajar con y obtener retroalimentación de personas fuera de OpenAI y para dar al público una idea de cuáles son las capacidades de la IA que están en el horizonte.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha pedido en la indicación, sino también cómo esas cosas existen en el mundo físico.

El modelo tiene un profundo entendimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un video generado que mantienen con precisión a los personajes y el estilo visual.

El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y puede no entender casos específicos de causa y efecto. Por ejemplo, una persona podría darle un mordisco a una galleta, pero después la galleta podría no tener una marca de mordisco.

El modelo también puede confundir detalles espaciales de una indicación, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que ocurren a lo largo del tiempo, como seguir una trayectoria específica de la cámara.

Resumir
OpenAI está enseñando a la inteligencia artificial a entender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a resolver problemas que requieren interacción del mundo real. Han presentado a Sora, un modelo de texto a video capaz de generar videos de hasta un minuto de duración manteniendo calidad visual y cumpliendo con la solicitud del usuario. Sora se está poniendo a disposición de equipos de evaluación para identificar áreas críticas de riesgo, así como de artistas visuales, diseñadores y cineastas para recibir retroalimentación. Aunque Sora puede generar escenas complejas, aún tiene debilidades en la simulación precisa de la física y la comprensión de ciertos detalles espaciales y temporales.