Sora:从文本创建视频

内容

我们正在教导人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要真实世界互动的问题。

介绍 Sora,我们的文本到视频模型。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵循用户的提示。

今天,Sora已经向红队成员开放,以评估关键领域的危害或风险。我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得关于如何推进模型以对创意专业人士最有帮助的反馈。

我们早期分享我们的研究进展,以便与OpenAI之外的人合作并获得反馈,并让公众了解人工智能未来的能力。

Sora能够生成包含多个角色、特定类型动作和主题背景的复杂场景。该模型不仅理解用户在提示中要求的内容,还能准确表达这些事物在现实世界中的存在方式。

该模型对语言有深入的理解,能够准确解释提示并生成富有表现力的角色,表达生动的情感。Sora还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。

当前模型存在一些弱点。它可能在准确模拟复杂场景的物理过程方面遇到困难,并且可能无法理解特定的因果关系实例。例如,一个人可能咬了一口饼干,但之后饼干上可能没有咬痕。

该模型可能还会混淆提示的空间细节,例如混淆左右,可能难以准确描述随时间发生的事件,比如跟随特定的摄像机轨迹。

总结
OpenAI推出了名为Sora的文本到视频模型,能够生成长达一分钟的视频,保持视觉质量并遵循用户的提示。Sora将向红队成员提供访问权限,以评估潜在的危害或风险。同时,也向视觉艺术家、设计师和电影制作人提供访问权限,以获得反馈并改进模型。Sora能够生成复杂场景,理解用户提示并在视频中准确呈现多个角色、特定运动类型和背景细节。然而,目前模型存在一些弱点,如在模拟复杂场景的物理过程和理解因果关系方面表现不佳。