Sora：从文本创建视频

我们正在教导人工智能理解和模拟运动中的物理世界，目标是训练模型，帮助人们解决需要真实世界互动的问题。

介绍 Sora，我们的文本到视频模型。Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵循用户的提示。

今天，Sora已经向红队成员开放，以评估关键领域的危害或风险。我们还向一些视觉艺术家、设计师和电影制作人授予访问权限，以获得关于如何推进模型以对创意专业人士最有帮助的反馈。

我们早期分享我们的研究进展，以便与OpenAI之外的人合作并获得反馈，并让公众了解人工智能未来的能力。

Sora能够生成包含多个角色、特定类型动作和主题背景的复杂场景。该模型不仅理解用户在提示中要求的内容，还能准确表达这些事物在现实世界中的存在方式。

该模型对语言有深入的理解，能够准确解释提示并生成富有表现力的角色，表达生动的情感。Sora还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

当前模型存在一些弱点。它可能在准确模拟复杂场景的物理过程方面遇到困难，并且可能无法理解特定的因果关系实例。例如，一个人可能咬了一口饼干，但之后饼干上可能没有咬痕。

该模型可能还会混淆提示的空间细节，例如混淆左右，可能难以准确描述随时间发生的事件，比如跟随特定的摄像机轨迹。