Sora : Création de vidéo à partir de texte

Nous apprenons à l'IA à comprendre et à simuler le monde physique en mouvement, dans le but de former des modèles qui aident les gens à résoudre des problèmes nécessitant une interaction réelle avec le monde.

Présentation de Sora, notre modèle de texte-à-vidéo. Sora peut générer des vidéos d'une durée allant jusqu'à une minute tout en maintenant une qualité visuelle et en respectant la consigne de l'utilisateur.

Aujourd'hui, Sora devient disponible pour les membres de l'équipe rouge afin d'évaluer les domaines critiques de préjudices ou de risques. Nous accordons également l'accès à un certain nombre d'artistes visuels, de designers et de cinéastes pour obtenir des retours sur la manière de faire progresser le modèle afin qu'il soit le plus utile possible pour les professionnels de la création.

Nous partageons nos progrès de recherche tôt afin de commencer à travailler avec des personnes en dehors d'OpenAI et obtenir des retours, et pour donner au public une idée des capacités en intelligence artificielle qui se profilent .

Sora est capable de générer des scènes complexes avec plusieurs personnages, des types spécifiques de mouvement et des détails précis du sujet et de l'arrière-plan. Le modèle comprend non seulement ce que l'utilisateur a demandé dans la consigne, mais aussi comment ces choses existent dans le monde physique.

Le modèle a une compréhension approfondie du langage, ce qui lui permet d'interpréter avec précision les instructions et de générer des personnages captivants exprimant des émotions vibrantes. Sora peut également créer plusieurs plans au sein d'une seule vidéo générée, préservant avec précision les personnages et le style visuel.

Le modèle actuel présente des faiblesses. Il peut avoir du mal à simuler avec précision la physique d'une scène complexe et peut ne pas comprendre des cas spécifiques de cause à effet. Par exemple, une personne pourrait prendre une bouchée d'un biscuit, mais ensuite, le biscuit pourrait ne pas avoir de marque de bouchée.

Le modèle peut également confondre les détails spatiaux d'une instruction, par exemple, en mélangeant la gauche et la droite, et peut avoir du mal avec des descriptions précises d'événements qui se déroulent dans le temps, comme suivre une trajectoire de caméra spécifique.