什么是“Sora”?
Sora是由OpenAI发布的人工智能模型,旨在将文本转换为任何尺寸的高清视频。它能够生成长达一分钟的流畅视频,并且还可以基于图像或其他视频创建视频。这使得可以创作出既真实又富有想象力的场景。
Sora是OpenAI发布的最新文本到视频模型。它可以生成长达一分钟的视频,完全遵循用户的提示,同时保持视觉质量。OpenAI的愿景宏大。与那些标榜口号如“每个人都是导演/艺术家”的典型公司不同,OpenAI致力于开发通用人工智能和世界模拟器,帮助人们解决需要与现实世界互动的问题。
作为一款令人印象深刻的强大新一代视频生成模型,Sora正在为AI视频创作开辟新时代的道路!
Sora 的官方网站: https://openai.com/sora
如何使用 Sora 生成视频?
目前,OpenAI 尚未开放 Sora 进行公开测试,也没有公开的 beta 测试渠道。然而,我们相信在不久的将来,我们都将能够方便地体验这一令人惊叹的新模型。敬请关注!
Sora有哪些特点?(通俗版)
以下是Sora模型的一些精华特性。
- 最大的模型支持生成长达60秒的高保真视频;
- 它支持向前和向后延长短视频,保持连续性同时延长持续时间;
- 它支持基于视频+文本的视频编辑,允许单个句子改变原始视频,完全改变视频编辑的逻辑。
- 视频信息被压缩成时空补丁,并使用扩散-变换器结构进行建模。
- 由于视频信息被压缩成时空补丁,支持直接生成不同大小、时间和分辨率的视频。
- Dalle3 用于细粒度视频文本注释,并训练模型将简短提示扩展为视频生成的复杂文本。
- 在物理交互方面仍存在一些缺陷,例如无法生成破碎的玻璃或雪地上的脚印。
- 尽管未提及是否使用物理引擎,但可能已在数据收集中使用。
Sora有哪些特点?(专家版)
统一的视觉数据表示
研究人员将所有类型的视觉数据转换为统一的表示形式,用于大规模生成模型训练。Sora使用视觉补丁作为其表示形式,类似于大型语言模型(LLMs)中的文本标记。
视频压缩网络
研究人员已经训练了一个网络,将原始视频压缩成低维潜在空间,并将其表示分解为时空补丁。Sora在这个压缩的潜在空间中进行训练并生成视频。
扩散模型
Sora 是一个扩散模型,通过预测原始的“干净”补丁,从输入噪声补丁生成视频。扩散模型在语言建模、计算机视觉和图像生成方面展现出了显著的可扩展性。
视频生成的可扩展性
Sora可以生成不同分辨率、持续时间和宽高比的视频,包括全高清视频。这种灵活性使Sora能够直接为不同设备生成内容,或在生成全分辨率视频之前快速生成原型内容。
语言理解
为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究人员应用了DALL·E 3中引入的重新描述技术,首先训练了一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。
图像和视频编辑
Sora可以根据文本提示生成视频,也可以根据现有图像或视频生成提示。这使得Sora能够执行各种图像和视频编辑任务,例如创建完美循环视频,使静态图像动起来,向前或向后延长视频等。
模仿能力
当视频模型在大规模训练时,它们展现出一些有趣的新能力,使Sora能够模拟物理世界的某些方面,如动态摄像机运动、长期一致性和物体持久性。
讨论
尽管Sora已经展现出作为模拟器的潜力,但它仍然存在许多限制,比如在模拟基本物理相互作用(如玻璃破碎)方面缺乏准确性。研究人员相信继续扩展视频模型是发展物理世界和数字世界模拟器的一个有前途的途径。