Sora: Erstellen von Videos aus Text

Wir bringen KI bei, die physische Welt in Bewegung zu verstehen und zu simulieren, mit dem Ziel, Modelle zu trainieren, die Menschen dabei helfen, Probleme zu lösen, die eine Interaktion mit der realen Welt erfordern.

Vorstellung von Sora, unserem Text-zu-Video-Modell. Sora kann Videos von bis zu einer Minute Länge generieren und dabei die visuelle Qualität und die Einhaltung der Benutzereingabe beibehalten.

Heute wird Sora für das rote Team verfügbar, um kritische Bereiche für Schäden oder Risiken zu bewerten. Wir gewähren auch einer Reihe von visuellen Künstlern, Designern und Filmemachern Zugang, um Feedback darüber zu erhalten, wie das Modell weiterentwickelt werden kann, um für kreative Fachleute am hilfreichsten zu sein.

Wir teilen unseren Forschungsfortschritt frühzeitig, um mit Menschen außerhalb von OpenAI zusammenzuarbeiten und Feedback zu erhalten, und um der Öffentlichkeit ein Gefühl dafür zu vermitteln, welche KI-Fähigkeiten in greifbarer Nähe sind.

Sora ist in der Lage, komplexe Szenen mit mehreren Charakteren, spezifischen Arten von Bewegungen und genauen Details des Motivs und des Hintergrunds zu generieren. Das Modell versteht nicht nur, was der Benutzer in der Eingabeaufforderung angefordert hat, sondern auch, wie diese Dinge in der physischen Welt existieren.

Das Modell hat ein tiefes Verständnis von Sprache, was es ihm ermöglicht, Anweisungen genau zu interpretieren und überzeugende Charaktere zu generieren, die lebhafte Emotionen ausdrücken. Sora kann auch mehrere Szenen in einem einzigen generierten Video erstellen, die Charaktere und visuellen Stil präzise beibehalten.

Das aktuelle Modell hat Schwächen. Es könnte Schwierigkeiten haben, die Physik einer komplexen Szene genau zu simulieren, und könnte spezifische Fälle von Ursache und Wirkung nicht verstehen. Zum Beispiel könnte eine Person von einem Keks abbeißen, aber danach könnte der Keks keine Bissmarke haben.

Das Modell kann auch räumliche Details einer Anweisung durcheinanderbringen, zum Beispiel links und rechts verwechseln, und möglicherweise Schwierigkeiten mit präzisen Beschreibungen von Ereignissen haben, die im Laufe der Zeit stattfinden, wie das Verfolgen einer bestimmten Kamerabewegung.