我们正在教导人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要真实世界互动的问题。
介绍 Sora,我们的文本到视频模型。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵循用户的提示。
今天,Sora已经向红队成员开放,以评估关键领域的危害或风险。我们还向一些视觉艺术家、设计师和电影制作人授予访问权限,以获得关于如何推进模型以对创意专业人士最有帮助的反馈。
我们早期分享我们的研究进展,以便与OpenAI之外的人合作并获得反馈,并让公众了解人工智能未来的能力。
Sora能够生成包含多个角色、特定类型动作和主题背景的复杂场景。该模型不仅理解用户在提示中要求的内容,还能准确表达这些事物在现实世界中的存在方式。
该模型对语言有深入的理解,能够准确解释提示并生成富有表现力的角色,表达生动的情感。Sora还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。
当前模型存在一些弱点。它可能在准确模拟复杂场景的物理过程方面遇到困难,并且可能无法理解特定的因果关系实例。例如,一个人可能咬了一口饼干,但之后饼干上可能没有咬痕。
该模型可能还会混淆提示的空间细节,例如混淆左右,可能难以准确描述随时间发生的事件,比如跟随特定的摄像机轨迹。