Sora:大视觉模型的背景、技术、局限性和机遇综述

内容

Yixin Liu11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Kai Zhang11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Yuan Li11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Zhiling Yan11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Chujie Gao11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Ruoxi Chen11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Zhengqing Yuan11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Yue Huang11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Hanchi Sun11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT111Equal contributions. The order was determined by rolling dice. Chujie, Ruoxi, Yuan, Yue, and Zhengqing are visiting students in the LAIR lab at Lehigh University. The GitHub link is https://github.com/lichao-sun/SoraReview Jianfeng Gao22{}^{2}start_FLOATSUPERSCRIPT 2 end_FLOATSUPERSCRIPT Lifang He11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT Lichao Sun11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPT222Lichao Sun is co-corresponding author: [email protected] 11{}^{1}start_FLOATSUPERSCRIPT 1 end_FLOATSUPERSCRIPTLehigh University 22{}^{2}start_FLOATSUPERSCRIPT 2 end_FLOATSUPERSCRIPTMicrosoft Research

摘要

Sora is a text-to-video generative AI model, released by OpenAI in February 2024. The model is trained to generate videos of realistic or imaginative scenes from text instructions and show potential in simulating the physical world. Based on public technical reports and reverse engineering, this paper presents a comprehensive review of the model’s background, related technologies, applications, remaining challenges, and future directions of text-to-video AI models. We first trace Sora’s development and investigate the underlying technologies used to build this “world simulator”. Then, we describe in detail the applications and potential impact of Sora in multiple industries ranging from film-making and education to marketing. We discuss the main challenges and limitations that need to be addressed to widely deploy Sora, such as ensuring safe and unbiased video generation. Lastly, we discuss the future development of Sora and video generation models in general, and how advancements in the field could enable new ways of human-AI interaction, boosting productivity and creativity of video generation.Refer to caption Figure 1: Sora: A Breakthrough in AI-Powered Vision Generation.

目录

1 引言

自从2022年11月ChatGPT发布以来,人工智能技术的出现标志着一个重大转变,重塑了交互方式,并深度融入日常生活和行业的各个方面 cite{1,2}。在这股势头的推动下,OpenAI在2024年2月发布了Sora,这是一个文本到视频的生成性AI模型,能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比,Sora的特点是能够在遵循用户文本指令的同时,生成高质量的长达1分钟的视频 cite{3}。Sora的这一进步体现了长期以来人工智能研究任务的实质,即赋予AI系统(或AI代理)理解和与运动中的物理世界互动的能力。这涉及到开发不仅能够解释复杂用户指令,而且能够将这种理解应用于通过动态和富有上下文的模拟来解决现实世界问题的AI模型。

Refer to caption

图 2:Sora 在文本到视频生成中的示例。文本指令被给予 OpenAI Sora 模型,它根据指令生成三个视频。

Sora 展示了一种非凡的能力,能够准确解释和执行复杂的人类指令,如图 2 所示。该模型可以生成包含多个执行特定动作的角色在复杂背景下的详细场景。研究人员将 Sora 的熟练程度归因于不仅处理用户生成的文本提示,还能辨别场景内元素之间复杂的相互作用。Sora 最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora 生成的一分钟长视频具有进展感和从第一帧到最后一帧的视觉一致性旅程。此外,Sora 的进步在于其能够产生带有细腻运动和互动描述的扩展视频序列,克服了早期视频生成模型的短片段和简单视觉呈现的限制。这一能力代表了 AI 驱动创意工具向前的一大飞跃,允许用户将文本叙述转换为丰富的视觉故事。总体而言,这些进步展示了 Sora 作为一个_世界模拟器_的潜力,能够提供对所描绘场景的物理和上下文动态的细腻洞察。 [3 ]。

技术。Sora的核心是一个预训练的_扩散变换器_ [4]。变换器模型已经证明对许多自然语言任务来说是可扩展且有效的。类似于强大的大型语言模型(LLMs)如GPT-4,Sora能够解析文本并理解复杂的用户指令。为了使视频生成计算效率高,Sora采用_时空潜在补丁_作为其构建块。具体来说,Sora将原始输入视频压缩成一个潜在的时空表示。然后,从压缩视频中提取一系列的时空潜在补丁,以封装短时间间隔内的视觉外观和运动动态。这些补丁,类似于语言模型中的单词标记,为Sora提供了详细的_视觉短语_,用于构建视频。Sora的文本到视频生成是通过一个扩散变换器模型来执行的。从一个充满视觉噪声的帧开始,模型迭代地去除噪声并根据提供的文本提示引入特定细节。本质上,生成的视频通过多步精炼过程出现,每一步都使视频更加符合期望的内容和质量。

Sora的亮点。Sora的能力在各个方面都有深远的影响:


  • 提高模拟能力:通过大规模训练Sora,使其具有模拟物理世界各个方面的显著能力。尽管缺乏明确的3D建模,Sora展现了具有动态相机运动和长距离连贯性的3D一致性,包括对象持久性和模拟与世界的简单互动。此外,Sora还引人入胜地模拟了像Minecraft这样的数字环境,由基本策略控制,同时保持视觉真实性。这些出现的能力表明,扩展视频模型在创建模拟物理和数字世界复杂性的AI模型方面是有效的。

  • 提升创造力:想象通过文本概述一个概念,无论是一个简单的对象还是一个完整的场景,并在几秒钟内看到一个现实的或高度风格化的视频渲染。Sora允许加速设计过程,以更快地探索和完善想法,从而显著提升艺术家、电影制作人和设计师的创造力。

  • 推动教育创新:视觉辅助工具长期以来一直是理解教育中重要概念的不可或缺的部分。有了Sora,教育工作者可以轻松地将课堂计划从文本转换为视频,以吸引学生的注意力并提高学习效率。从科学模拟到历史戏剧化,可能性是无限的。

  • 增强可访问性:在视觉领域增强可访问性至关重要。Sora提供了一种创新的解决方案,通过将文本描述转换为视觉内容。这一能力使所有人,包括视觉障碍者,都能积极参与内容创作并以更有效的方式与他人互动。因此,它允许创建一个更具包容性的环境,每个人都有机会通过视频表达他或她的想法。

  • 培育新兴应用:Sora的应用范围广泛。例如,营销人员可能使用它根据特定受众描述创建动态广告。游戏开发者可能使用它根据玩家叙述生成定制化的视觉效果甚至角色动作。

限制与机遇。虽然Sora的成就突显了人工智能的重大进步,但挑战依然存在。描述复杂动作或捕捉微妙的面部表情是模型可以增强的领域之一。此外,诸如减轻生成内容中的偏见和防止有害视觉输出等伦理考虑强调了开发者、研究人员和更广泛社区负责任使用的重要性。确保Sora的输出始终是安全且无偏见的,是一个主要挑战。视频生成领域正在迅速发展,学术界和工业研究团队正在不懈地取得进步。竞争性的文本到视频模型的出现表明,Sora可能很快就会成为一个动态生态系统的一部分。这种合作与竞争的环境促进了创新,导致视频质量的提高和新应用的出现,这些新应用有助于提高工人的生产力并使人们的生活更加娱乐。

基于已发表的技术报告和我们的逆向工程,本文提出了对Sora背景、相关技术、新兴应用、当前限制和未来机遇的首次全面回顾。

2 背景

2.1 历史

在计算机视觉(CV)领域,深度学习革命之前,传统的图像生成技术依赖于纹理合成 [5 ] 和纹理映射 [6 ] 等方法,这些方法基于手工制作的特征。然而,这些方法在生成复杂和生动的图像方面能力有限。生成对抗网络(GANs) [7 ] 和变分自编码器(VAEs) [8 ] 的引入标志着一个重要的转折点,因为它在各种应用中具有显著的能力。随后的发展,如流模型 [9 ] 和扩散模型 [10 ],进一步提高了图像生成的细节和质量。人工智能生成内容(AIGC)技术的最新进展已经使内容创作民主化,使用户能够通过简单的文本指令生成所需内容 [11 ]。

在过去的十年里,生成性计算机视觉模型的发展采取了多种路径,如图3所示。这一领域的格局在变压器架构":12"在NLP中的成功应用之后开始显著转变,如BERT":13"和GPT":14"所示。在计算机视觉(CV)领域,研究人员通过将变压器架构与视觉组件相结合,将这一概念推向更远,使其能够应用于下游CV任务,例如视觉变压器(ViT)":15"和Swin变压器":16"。与变压器的成功相伴随,扩散模型在图像和视频生成领域也取得了重大进展":10"。扩散模型提供了一个数学上合理的框架,用于将噪声转换成带有U-Net":17"的图像,其中U-Net通过学习预测和减轻每一步的噪声来促进这一过程。自2021年以来,人工智能的一个重要焦点是能够解释人类指令的生成性语言和视觉模型,即多模态模型。例如,CLIP":18"是一种开创性的视觉-语言模型,它结合了变压器架构和视觉元素,便于其在大量文本和图像数据集上进行训练。通过从一开始就整合视觉和语言知识,CLIP可以作为多模态生成框架内的图像编码器。另一个值得注意的例子是稳定扩散":19",这是一个多功能的文本到图像AI模型,以其适应性和易用性而受到赞誉。它采用变压器架构和潜在扩散技术来解码文本输入并生成各种风格的图像,进一步说明了多模态AI的进步。

Refer to caption

图3:生成式AI在视觉领域的历史。

自从2022年11月ChatGPT发布以来,我们见证了2023年商业文本到图像产品的出现,例如Stable Diffusion \19\,Midjourney \20\,DALL-E 3 \21\。这些工具使用户能够仅通过简单的文本提示生成高分辨率和高质量的新图像,展示了AI在创意图像生成方面的潜力。然而,从文本到图像转变为文本到视频由于视频的时间复杂性而具有挑战性。尽管工业界和学术界做出了大量努力,但大多数现有的视频生成工具,例如Pika \22\和Gen-2 \23\,仅限于生成几秒钟的短视频片段。在这种背景下,Sora代表了一个重大突破,类似于ChatGPT在NLP领域的影响。Sora是第一个能够基于人类指令生成长达一分钟的视频的模型,标志着深刻影响生成性AI研究和开发的里程碑。为了便于轻松访问最新的视觉生成模型进展,最新的作品已被编译并在附录和我们的GitHub中提供。

2.2 高级概念

视觉模型的规模化定律。有了大型语言模型(LLMs)的规模化定律,自然会问视觉模型的发展是否遵循类似的规模化定律。最近,Zhai等人 \24\[已经证明,只要有足够的训练数据,ViT模型的性能-计算前沿大致遵循一个(饱和的)幂律。继他们之后,谷歌研究 \25\[提出了一种高效稳定训练22B参数ViT的方法。结果表明,使用冻结模型产生嵌入,然后在顶部训练薄层,可以实现出色的性能。作为一个大型视觉模型(LVM),Sora与这些规模化原则保持一致,揭示了在文本到视频生成中的几种新兴能力。这一显著进展强调了LVMs实现类似LLMs所见进步的潜力。

涌现能力。在大型语言模型(LLMs)中,涌现能力是一些复杂的行为或功能,它们在某些规模上显现出来——这通常与模型参数的大小有关——这些能力并没有被开发者明确编程或预期。这些能力被称为“涌现”,因为它们源自模型在各种数据集上的全面训练,加上其庞大的参数数量。这种组合使得模型能够形成联系并做出推断,超越了单纯的模式识别或死记硬背。通常,这些能力的出现不能通过从小规模模型的性能推断出来。虽然许多大型语言模型,如ChatGPT和GPT-4,展示了涌现能力,但直到Sora的出现,展示类似能力的视觉模型还很少。根据Sora的技术报告,它是第一个展示出经过确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。

除了其新兴的能力外,Sora还展示了其他显著的能力,包括遵循指示、视觉提示工程和视频理解。Sora功能的这些方面代表了视觉领域的重大进展,将在接下来的部分中进行探讨和讨论。

3 技术

3.1 Sora 概述

Refer to caption

图 4: 逆向工程:Sora 框架概览

在核心本质上,Sora 是一个扩散变压器 \4\,具有灵活的采样维度,如图 4 所示。它分为三部分:(1) 时空压缩器首先将原始视频映射到潜在空间。(2) ViT 然后处理标记化的潜在表示,并输出去噪的潜在表示。(3) 类似 CLIP 的 \26\ 调节机制接收 LLM 增强的用户指令和潜在的视觉提示,以引导扩散模型生成风格化或主题化的视频。经过多次去噪步骤,生成视频的潜在表示被获取,然后与相应的解码器映射回像素空间。在本节中,我们旨在逆向工程 Sora 使用的技术,并讨论一系列相关作品。

3.2 数据预处理

3.2.1 变量持续时间、分辨率、宽高比

Sora的一个显著特点是其能够以原始尺寸训练、理解和生成视频和图像 \3\,如图5所示。传统方法通常会调整视频的尺寸、裁剪或调整宽高比以适应统一标准——通常是短片、带有固定低分辨率的方形帧 \27\ \28\ \29\。这些样本通常以更宽的时间跨度生成,并依赖于分别训练的帧插入和分辨率渲染模型作为最后一步,导致视频不一致。利用扩散变换器架构 \4\(见第3.2.4节),Sora是第一个能够接纳视觉数据多样性并能够在各种视频和图像格式中进行采样的模型,从宽屏1920x1080p视频到垂直1080x1920p视频以及介于两者之间的视频,而不会损害它们的原始尺寸。

Refer to caption

图5:Sora可以生成灵活尺寸或分辨率的图像,范围从1920x1080p到1080x1920p,以及两者之间的任何尺寸。

Refer to caption

图6:Sora(右)和模型的修改版本(左)之间的比较,将视频裁剪为方形形状——这是模型训练中的常见做法——突显了优势。

在原始尺寸的数据上进行训练显著改善了生成视频的构图和画面。经验研究表明,通过保持原始长宽比,Sora实现了更自然和连贯的视觉叙事。Sora与模型在统一裁剪的正方形视频上训练的比较显示出明显优势,如图6所示。Sora生成的视频呈现出更好的构图,确保了场景中的主体被完全捕捉,而不像正方形裁剪导致的有时截断的视图。

这种对原始视频和图像特征的微妙理解和保留标志着生成模型领域的重大进步。Sora的方法不仅展示了更真实和引人入胜的视频生成潜力,还突显了多样性在训练数据中实现高质量结果的重要性。Sora的训练方法与Richard Sutton的《The Bitter Lesson》 30的核心原则一致,即利用计算而不是人工设计的特征可以实现更有效和灵活的人工智能系统。就像扩散变压器的原始设计追求简单和可扩展性 31一样,Sora的训练策略放弃了传统人工智能对人为抽象的依赖,而是倾向于一种随着计算能力扩展的通用方法。在本节的其余部分,我们试图逆向工程Sora的架构设计,并讨论相关技术以实现这一惊人的特性。

3.2.2 统一视觉表现

为了有效处理包括持续时间、分辨率和宽高比各异的图像和视频等多样的视觉输入,一个关键的方法是将所有形式的视觉数据转换为统一的表示形式,从而便于大规模训练生成模型。具体来说,Sora首先将视频压缩成低维潜在空间,然后将表示分解为时空补丁。然而,Sora的技术报告[3]仅仅提出了一个高层次的想法,这使得研究社区难以复制。在本节中,我们尝试逆向工程潜在的要素和技术路径。此外,我们将讨论可能复制Sora功能的可行替代方案,并借鉴现有文献的见解。

Refer to caption

图7:在高层次上,Sora首先将视频压缩成低维潜在空间,然后将表示分解成时空补丁。来源:Sora的技术报告3

3.2.3 视频压缩网络

Refer to caption

图 8:ViT 将图像分割成固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,然后将得到的向量序列馈送到标准 Transformer 编码器。

Sora的视频压缩网络(或视觉编码器)旨在减少输入数据的维度,特别是原始视频,并输出一个在时间和空间上都被压缩的潜在表示,如图7所示。根据技术报告中的参考文献,压缩网络是基于VAE或矢量量化-VAE(VQ-VAE)构建的 [32]。然而,正如技术报告中所述,对于VAE来说,如果不使用调整大小和裁剪,将视觉数据映射到统一且固定大小的潜在空间是具有挑战性的。我们总结了两种不同的实现来解决这个问题:

空间-补丁压缩。这涉及将视频帧转换为固定大小的补丁,类似于ViT \15和MAE \33中采用的方法(见图8),然后将它们编码为潜在空间。这种方法特别适用于容纳不同分辨率和宽高比的视频,因为它通过处理单个补丁来编码整个帧。随后,这些空间令牌被组织成时间序列,以创建空间-时间潜在表示。这种技术突出了几个关键考虑因素:时间维度的可变性-鉴于训练视频的持续时间不同,潜在空间表示的时间维度不能固定。为了解决这个问题,可以选择采样特定数量的帧(对于较短的视频可能需要填充或时间插值\34),或者为后续处理定义一个普遍扩展(超长)的输入长度(更多细节请参见第3.2.4节的描述);利用预训练的视觉编码器-为了处理高分辨率视频,建议大多数研究人员利用现有的预训练视觉编码器,例如来自Stable Diffusion的VAE编码器\19,而Sora的团队预计将通过训练潜在扩散模型\19、\35、\36的方式从头开始训练他们自己的压缩网络与解码器(视频生成器)。这些编码器可以高效地压缩大尺寸的补丁(例如,256×256256256256\times 256256 × 256),便于管理大规模数据;时间信息聚合-由于这种方法主要侧重于空间补丁压缩,因此需要模型内的额外机制来聚合时间信息。这一方面对于捕捉随时间动态变化至关重要,并在后续章节中进一步阐述(请参见第3.2.6节的详细信息和图14)。

空间-时间-块压缩。这种技术旨在封装视频数据的空间和时间维度,提供全面的表示。该技术不仅仅分析静态帧,还考虑跨帧的运动和变化,从而捕捉视频的动态方面。利用3D卷积成为实现这种整合的直接而有效的方法37。图形说明和与纯空间块化的比较见于图9。与空间块压缩类似,使用具有预定卷积核参数的空间-时间-块压缩,如固定的核尺寸、步幅和输出通道,由于视频输入的不同特征而导致潜在空间维度的变化。这种变化主要受到正在处理的视频的不同持续时间和分辨率的影响。为了减轻这一挑战,空间块化采用的方法在这种情况下同样适用且有效。

Refer to caption

Refer to caption

图9:视频压缩中不同块化方法的比较。来源:ViViT \38。 (左)空间块化简单地对nt下标𝑛𝑡n_titalic_n start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT帧进行采样,并按照ViT独立地嵌入每个2D帧。 (右)时空块化提取并线性嵌入跨越时空输入体积的非重叠或重叠的小管。

总之,我们根据VAE或其变体(如VQ-VQE)对两种基于补丁级压缩方法进行了逆向工程,因为对补丁的操作更灵活,可以处理不同类型的视频。由于Sora旨在生成高保真度视频,因此使用了大的补丁大小或核大小进行高效压缩。在这里,我们期望使用固定大小的补丁以实现简单性、可扩展性和训练稳定性。但也可以使用不同大小的补丁":39来使整个帧或视频在潜在空间中的维度保持一致。然而,这可能导致无效的位置编码,并使解码器在生成具有不同大小潜在补丁的视频时面临挑战。

3.2.4 时空潜在补丁

在压缩网络部分仍然存在一个关键问题:在将补丁输入扩散变换器的输入层之前,如何处理潜在空间维度的变化(即来自不同视频类型的潜在特征块或补丁的数量)。在这里,我们讨论了几种解决方案。

基于Sora的技术报告和相应的参考文献,补丁和打包(PNP) 40 很可能是解决方案。PNP在单个序列中打包来自不同图像的多个补丁,如图10 所示。这种方法受到自然语言处理中使用的示例打包的启发,通过丢弃标记来适应可变长度输入的高效训练。 在这里,补丁化和标记嵌入步骤需要在压缩网络中完成,但Sora可能会进一步将变压器标记的潜在部分进行补丁化,就像扩散变压器所做的那样 4。无论是否有第二轮补丁化,我们都需要解决两个问题,如何以紧凑的方式打包这些标记,以及如何控制应该丢弃哪些标记。对于第一个问题,使用了一种简单的贪婪方法,该方法将示例添加到具有足够剩余空间的第一个序列中。一旦无法再容纳更多示例,序列将填充填充标记,从而产生批量操作所需的固定序列长度。这样一个简单的打包算法可能会导致显着的填充,具体取决于输入长度的分布。另一方面,我们可以通过调整序列长度和限制填充来控制我们采样的分辨率和帧率,以确保高效的打包。对于第二个问题,一种直观的方法是丢弃相似的标记 42, 43, 33, 44 或者像PNP一样应用丢弃率调度器。然而,值得注意的是,3D一致性是Sora的一个良好特性。在训练期间,丢弃标记可能会忽略细粒度的细节。因此,我们认为OpenAI很可能会使用超长的上下文窗口,并打包所有来自视频的标记,尽管这样做在计算上是昂贵的,例如,多头注意力 45, 46 运算符在序列长度上呈二次成本。具体来说,来自长时间视频的时空潜在补丁可以打包在一个序列中,而来自几个短时间视频的补丁则连接在另一个序列中。

Refer to caption

图10:补丁打包使可变分辨率的图像或视频保持纵横比。6令牌丢弃可能被视为数据增强。来源:NaViT \40\

3.2.5 讨论

对于研究界,我们建议使用成本效益的替代解决方案进行视频压缩和表示,包括利用预训练的检查点(例如,压缩网络)[47],缩短上下文窗口,使用轻量级建模机制,如(分组)多查询注意力[48, 49]或高效架构(例如Mamba[50]),对数据进行下采样并在必要时丢弃令牌。视频建模的效果和效率之间的权衡是一个重要的研究课题需要探讨。

3.2.6 扩散变压器

图 11: DiT(左)和 U-ViT(右)的整体框架

Refer to caption

.

图11: DiT(左)和 U-ViT(右)的整体框架

3.3 建模

图像扩散变换器。传统的扩散模型主要利用包含下采样和上采样块的卷积 U-Net 作为去噪网络骨干。然而,最近的研究表明,U-Net 架构对扩散模型的良好性能并不是至关重要的。通过结合更灵活的变换器架构,基于变换器的扩散模型可以利用更多的训练数据和更大的模型参数。在这方面,DiT 和 U-ViT 是首批采用视觉变换器进行潜在扩散模型的作品之一。与 ViT 一样,DiT 使用多头自注意力层和一个点式前馈网络,交错使用一些层归一化和缩放层。此外,正如图 [11] 所示,DiT 通过自适应层归一化(AdaLN)结合额外的 MLP 层进行零初始化,将每个残差块初始化为恒等函数,从而极大地稳定了训练过程。DiT 的可扩展性和灵活性经过实证验证。DiT 成为扩散模型的新骨干。在 U-ViT 中,他们将所有输入(包括时间、条件和嘈杂图像块)都视为标记,并提出了浅层和深层变换器之间的长跳连接。结果表明,基于 CNN 的 U-Net 中的下采样和上采样运算符并非总是必要的,U-ViT 在图像和文本到图像生成中取得了创纪录的 FID 分数。

像 Masked AutoEncoder (MAE) [33], Masked Diffusion Transformer (MDT) [55] 将掩码潜在建模融入扩散过程中,以明确增强图像合成中对象语义部分之间的上下文关系学习。具体而言,如图 [12], MDT 在训练过程中使用侧插值进行额外的掩码标记重建任务,以提高训练效率,并学习用于推理的强大上下文感知位置嵌入。与 DiT [4] 相比,MDT 实现了更好的性能和更快的学习速度。Hatamizadeh 等人引入了 Diffusion Vision Transformers (DiffiT),它使用时间相关的自注意力 (TMSA) 模块来模拟动态去噪行为。此外,DiffiT 在像素空间和潜在空间中使用两种混合分层架构进行高效去噪,并在各种生成任务中取得了新的最先进结果。总的来说,这些研究展示了在图像潜在扩散中使用视觉变换器取得了有希望的结果,为未来研究其他模态铺平了道路。

Refer to caption

图12:Masked Diffusion Transformer(MDT)的整体框架。实线/虚线表示每个时间步的训练/推断过程。掩码和侧插值器仅在训练期间使用,在推断期间将被移除。

视频扩散变压器。在文本到图像(T2I)扩散模型的基础工作基础上,最近的研究集中在实现扩散变压器在文本到视频(T2V)生成任务中的潜力。由于视频的时间性质,将DiTs应用于视频领域的关键挑战包括:i)如何将视频在空间和时间上压缩到潜在空间以进行高效去噪;ii)如何将压缩的潜在转换为补丁并将其馈送到变压器;以及iii)如何处理长距离的时间和空间依赖性并确保内容一致性。请参阅第3.2.3节以了解第一个挑战。在本节中,我们重点讨论基于变压器的去噪网络架构,这些架构旨在在空间和时间上压缩的潜在空间中运行。我们对OpenAI Sora技术报告的参考文献列表中描述的两项重要工作(Imagen Video [29 ] 和 Video LDM [36 ])进行了详细回顾。

Imagen Video,由Google Research开发的文本到视频生成系统,利用一系列扩散模型,包括7个子模型,执行文本条件视频生成、空间超分辨率和时间超分辨率,将文本提示转换为高清视频。如图13所示,首先,一个冻结的T5文本编码器从输入文本提示生成上下文嵌入。这些嵌入对齐生成的视频与文本提示至关重要,并被注入到级联中的所有模型中,除了基础模型。随后,嵌入被馈送到基础模型进行低分辨率视频生成,然后通过级联扩散模型进行分辨率增加。基础视频和超分辨率模型以时空可分离的方式使用3D U-Net架构。这种架构将时间注意力和卷积层与空间对应部分相结合,以有效捕捉帧间依赖关系。它采用v-预测参数化以保持数值稳定性,并使用条件增强来促进跨模型的并行训练。该过程涉及对图像和视频进行联合训练,将每个图像视为一帧以利用更大的数据集,并使用无分类器指导来增强提示的保真度。渐进蒸馏应用于简化采样过程,显著减少计算负载同时保持感知质量。结合这些方法和技术,Imagen Video不仅能生成高保真度的视频,还具有显著的可控性,如其生成多样化视频、文本动画和各种艺术风格内容的能力所示。

Refer to caption

图13:Imagen Video的整体框架。来源:Imagen Video 29

Refer to caption

(a) 附加的时间层。通过插入学习将帧对齐为时间一致序列的时间层,将预训练的LDM转换为视频生成器。在优化过程中,图像主干 θ_θ 保持固定,只有时间层 l_{\phi}^{i} 的参数 ϕ_{\phi}^{i} 被训练。

Refer to caption

(b) 视频 LDM 堆栈。视频 LDM 首先生成稀疏关键帧,然后使用相同的潜在扩散模型进行两次时间插值,以实现高帧率。最后,将潜在视频解码到像素空间,并可选择应用视频上采样扩散模型。

图14:Video LDM的整体框架。来源:Video LDM \[36](https://arxiv.org/html/2402.17177v1#bib.bib36)。

Blattmann等人[36]提出将2D潜在扩散模型转变为视频潜在扩散模型(Video LDM)。他们通过在现有的空间层中添加一些事后时间层,将个别帧对齐的学习引入到U-Net主干和VAE解码器中来实现这一目标。这些时间层在编码视频数据上进行训练,而空间层保持固定,使模型能够利用大型图像数据集进行预训练。LDM的解码器经过微调,以实现像素空间中的时间一致性和增强空间分辨率的时间对齐扩散模型上采样器。为了生成非常长的视频,模型被训练以预测未来帧,给定一定数量的上下文帧,从而在采样过程中实现无分类器的引导。为了实现高时间分辨率,视频合成过程被分为关键帧生成和这些关键帧之间的插值。在级联LDM之后,通过DM进一步将Video LDM的输出扩大4倍,确保高空间分辨率同时保持时间一致性。这种方法以计算高效的方式实现了生成全局连贯的长视频。此外,作者展示了将预训练的图像LDM(例如,稳定扩散)转换为文本到视频模型的能力,仅通过训练时间对齐层,实现了分辨率高达1280×2048的视频合成。

3.3.1 讨论

空间和时间上采样的级联扩散模型。Sora可以生成高分辨率视频。通过审查现有作品和我们的逆向工程,我们推测Sora也利用了级联扩散模型架构[59],该架构由基础模型和许多时空细化模型组成。注意力模块不太可能在基础扩散模型和低分辨率扩散模型中被大量使用,考虑到在高分辨率情况下使用注意力机制的高计算成本和有限的性能增益。对于空间和时间场景的一致性,正如先前的研究表明,对于视频/场景生成,时间一致性比空间一致性更重要,Sora可能通过使用更长的视频(用于时间一致性)和较低分辨率来利用高效的训练策略。此外,Sora可能会使用v𝑣vitalic_v-参数化扩散模型[58],考虑到与预测原始潜变量x𝑥xitalic_x或噪声ϵitalic-ϵεitalic_ϵ的其他变体相比,其性能更优越。

在潜在编码器上。为了训练效率,大多数现有作品利用 Stable Diffusions 的预训练VAE编码器 [60, 61],一个预训练的2D扩散模型,作为初始化模型检查点。然而,编码器缺乏时间压缩能力。尽管一些作品提出仅微调解码器以处理时间信息,但解码器在处理压缩潜在空间中的视频时间数据方面的性能仍然不理想。根据技术报告,我们的逆向工程显示,索拉可能使用了一个时空VAE编码器,从头开始在视频数据上进行训练,这比现有的具有视频导向压缩潜在空间的模型表现更好。

3.4 随后的语言指导

用户主要通过自然语言指令与生成式AI模型互动,这些指令被称为文本提示。模型指令调整旨在增强AI模型准确遵循提示的能力。这种改进后的提示遵循能力使模型生成的输出更接近人类对自然语言查询的响应。我们从对大型语言模型(LLMs)和文本到图像模型(如DALL·E 3)的指令遵循技术进行回顾开始我们的讨论。为了增强文本到视频模型遵循文本指令的能力,Sora采用了类似于DALL·E 3的方法。该方法涉及训练一个描述性的字幕生成器,并利用生成的数据进行微调。通过指令调整,Sora能够满足各种用户请求,确保对指令中的细节进行细致关注,并生成精确满足用户需求的视频。

3.4.1 大型语言模型

LLM的遵循指令能力已被广泛探索 [64, 65, 66]。这种能力使LLM能够阅读、理解并适当地回应描述未见任务的指令,而无需示例。通过在一系列格式为指令的任务上对LLM进行微调,即所谓的指令调整,可以获得和增强提示遵循能力 [64, 66]。Wei等人 [65]表明,经过指令调整的LLM在未见任务上明显优于未调整的LLM。遵循指令的能力将LLM转变为通用任务求解器,在人工智能发展史上标志着一次范式转变。

3.4.2 文本到图像

DALL·E 3中的后续指令通过标题改进方法进行处理,假设模型训练的文本-图像对的质量决定了生成的文本到图像模型的性能 extsuperscript{67}。数据质量差,尤其是嘈杂数据和短标题普遍存在,忽略了大量视觉信息,导致许多问题,如忽略关键词和词序,误解用户意图 extsuperscript{21}。标题改进方法通过为现有图像重新生成详细的描述性标题来解决这些问题。该方法首先训练图像标题生成器,这是一个视觉-语言模型,用于生成精确和描述性的图像标题。然后使用标题生成器生成的描述性图像标题来微调文本到图像模型。具体来说,DALL·E 3遵循对比式标题生成器(CoCa) extsuperscript{68},联合训练图像标题生成器与CLIP extsuperscript{26}架构和语言模型目标。该图像标题生成器包含图像编码器、用于提取语言信息的单模态文本编码器和多模态文本解码器。首先在单模态图像和文本嵌入之间使用对比损失,然后对多模态解码器的输出进行标题损失。最终的图像标题生成器在覆盖主要对象、周围环境、背景、文本、风格和色彩的高度详细图像描述上进行进一步微调。通过这一步骤,图像标题生成器能够为图像生成详细的描述性标题。文本到图像模型的训练数据集是由图像标题生成器生成的重新生成数据集和地面真实人工编写数据的混合,以确保模型捕捉用户输入。这种图像标题改进方法引入了一个潜在问题:实际用户提示与训练数据中描述性图像描述之间的不匹配。DALL·E 3通过上采样来解决这个问题,LLMs用于将简短用户提示重写为详细和冗长的指令。这确保了推理时模型接收到的文本输入与训练中的输入一致。

3.4.3 文本到视频

为了增强指令跟随的能力,Sora采用了类似的字幕改进方法。该方法首先训练一个能够为视频生成详细描述的视频字幕生成器。然后,将该视频字幕生成器应用于训练数据中的所有视频,生成高质量的(视频,描述性字幕)对,用于微调Sora以提高其指令跟随能力。

Sora的技术报告并未透露视频字幕生成器的训练细节。鉴于视频字幕生成器是一个视频到文本模型,有许多构建方法。一种直接的方法是利用CoCa架构进行视频字幕生成,通过将视频的多帧输入到图像编码器中,即VideoCoCa。VideoCoCa基于CoCa构建,并重复使用图像编码器的预训练权重,独立地应用于采样的视频帧。生成的帧标记嵌入被展平并连接成一长序列的视频表示。然后,这些展平的帧标记通过生成式池化器和对比池化器处理,它们与对比损失和字幕损失一起进行训练。构建视频字幕生成器的其他选择包括mPLUG-2、GIT、FrozenBiLM等。最后,为了确保用户提示与训练数据中那些描述性字幕的格式相匹配,Sora执行额外的提示扩展步骤,其中使用GPT-4V将用户输入扩展为详细的描述性提示。

3.4.4 讨论

Sora的指令遵循能力对于生成符合用户意图的复杂场景的一分钟长视频至关重要。根据Sora的技术报告[3],这种能力是通过开发一个能够生成长而详细字幕的字幕生成器来获得的,然后用这些字幕来训练模型。然而,为训练这种字幕生成器收集数据的过程是未知的,可能需要详细描述视频,这可能是一项费时费力的工作。此外,描述性视频字幕生成器可能会产生视频的重要细节幻觉。我们认为如何改进视频字幕生成器值得进一步研究,并且对于增强文本到图像模型的指令遵循能力至关重要。

3.5 提示工程

提示工程指的是设计和优化输入,尤其是在生成模型的背景下,以实现特定或优化的输出[73, 74, 75]。提示工程的艺术和科学包括以引导模型产生最准确、相关和连贯的响应为目标来设计这些输入。

3.5.1 文本提示

文本提示工程在指导文本到视频模型(例如,Sora)生成视觉引人注目的视频并精确满足用户规格方面至关重要。这涉及制作详细描述,指导模型有效地弥合人类创造力与人工智能执行能力之间的差距。Sora的提示涵盖了各种场景。最近的研究(例如,VoP、Make-A-Video和Tune-A-Video)展示了提示工程如何利用模型的自然语言理解能力来解码复杂指令,并将其呈现为连贯、生动和高质量的视频叙事。正如图[15]所示,“一位时尚女性走在霓虹灯照亮的东京街道上…”是一个精心制作的文本提示,确保Sora生成与预期视觉相符的视频。提示工程的质量取决于单词的精心选择、提供细节的具体性以及对其对模型输出的影响的理解。例如,图[15]中的提示详细说明了场景中的动作、设置、角色外貌,甚至是所需的情绪和氛围。

Refer to caption

图15:一个关于文本到视频生成的提示工程案例研究,采用颜色编码来描述创意过程。蓝色高亮显示的文本描述了由Sora生成的元素,比如时尚女性的描绘。相比之下,黄色文本突出了模特对动作、场景和角色外貌的诠释,展示了如何将精心制作的提示转化为生动而动态的视频叙事。

3.5.2 图像提示

图像提示作为即将生成的视频内容以及角色、场景和情绪等其他元素的视觉锚点 \79。此外,文本提示可以指导模型通过添加运动、互动和叙事进展的层次等方式来使这些元素动画化,从而使静态图像栩栩如生 \278081。使用图像提示使Sora能够通过利用视觉和文本信息将静态图像转换为动态、叙事驱动的视频。在图 16 中,我们展示了由AI生成的视频,包括“戴贝雷帽和高领衫的柴犬”、“独特的怪物家庭”、“一个形成“SORA”字样的云”和“冲浪者在历史悠久的大厅内穿行潮汐浪潮”。这些示例展示了通过DALL·E生成的图像提示激发Sora可以实现的效果。

Refer to caption

图16:这个例子说明了图像提示如何引导Sora的文本到视频模型生成。红色框框直观地锚定了每个场景的关键元素——各种设计的怪物、拼写“SORA”的云团和站在华丽大厅里面对巨大海啸的冲浪者。

3.5.3 视频提示

视频提示也可用于视频生成,如在8283中所示。最近的研究作品(例如,Moonshot 84和Fast-Vid2Vid 85)表明,良好的视频提示需要具体且灵活。这确保模型能够清晰地了解特定目标,如特定对象和视觉主题的描绘,并允许最终输出中的想象变化。例如,在视频扩展任务中,提示可以指定方向(时间向前或向后)以及扩展的上下文或主题。在图17(a)中,视频提示指示Sora将视频向时间倒退以探索导致原始起点的事件。在通过视频提示进行视频编辑时,如图17(b)所示,模型需要清晰地理解所需的转换,如更改视频的风格、设置或氛围,或调整诸如照明或情绪等微妙方面。在图17(c)中,提示指示Sora连接视频,同时确保不同场景中对象之间的平滑过渡。

Refer to caption

图17:这些示例展示了Sora模型的视频提示技术:(a) 视频扩展,模型将序列向原始镜头的反方向外推,(b) 视频编辑,根据文本提示将特定元素如场景进行转换,以及(c) 视频连接,将两个不同的视频提示无缝融合以创造连贯的叙事。每个过程都由一个视觉锚点引导,用红色框标记,确保生成的视频内容连续性和精准性。

3.5.4 讨论

提示工程允许用户引导AI模型生成符合其意图的内容。举例来说,文本、图像和视频提示的综合使用使Sora能够创作出不仅视觉上引人入胜,而且与用户期望和意图高度契合的内容。虽然先前关于提示工程的研究主要集中在LLMs和LVMs的文本和图像提示上 \86, 87, 88\],我们预计对于视频生成模型而言,视频提示将引起越来越多的关注。

3.6 信誉度

随着像ChatGPT 89,GPT4-V 90和Sora 3等复杂模型的快速发展,这些模型的能力得到了显著增强。这些发展对提高工作效率和推动技术进步做出了重要贡献。然而,这些进步也引发了对这些技术潜在滥用的担忧,包括虚假新闻的生成 91,隐私泄露 93和伦理困境 9495。因此,大型模型的可信度问题引起了学术界和工业界的广泛关注,成为当代研究讨论的焦点。

3.6.1 安全问题

重点关注领域之一是模型的安全性,特别是其对滥用和所谓的“越狱”攻击的抵抗力,用户试图利用漏洞生成被禁止或有害内容。例如,AutoDAN,一种基于梯度技术的新颖且可解释的对抗攻击方法,被引入以实现系统绕过。在最近的一项研究中,研究人员探讨了LLMs难以抵抗越狱攻击的两个原因:竞争目标和不匹配的泛化。除了文本攻击,视觉越狱也威胁到多模型的安全性(例如,GPT-4V和Sora)。一项最近的研究发现,大型多模型更容易受到攻击,因为额外的视觉输入的连续和高维特性使其更容易受到对抗性攻击,代表了一个扩展的攻击面。

3.6.2 其他利用

由于训练数据集的规模庞大以及大型基础模型的训练方法(例如,ChatGPT 89 和 Sora 3),这些模型的真实性需要得到增强,因为相关问题,如幻觉,已被广泛讨论 108。在这种情况下,幻觉指的是模型倾向于生成看似令人信服但毫无根据或错误的回应 96。这一现象引发了关于模型输出的可靠性和可信度的关键问题,需要全面的方法来评估和解决这一问题。大量研究致力于从各个角度剖析幻觉问题。这包括旨在评估不同模型和场景中幻觉程度和性质的努力 10996110111。这些评估为了解幻觉发生的方式和原因提供了宝贵的见解,为制定减少其发生率的策略奠定了基础。与此同时,大量研究致力于设计和实施减少这些大型模型中幻觉的方法 112113114

信誉可靠性的另一个重要方面是公平和偏见。开发不会延续或加剧社会偏见的模型至关重要。这一优先事项源自对这些模型中编码的偏见可能强化现有社会不公平,导致歧视性结果的认识。正如 Gallegos 等人的工作所证明的那样,这一领域的研究致力于细致地识别和纠正这些固有偏见。目标是培养公平运作的模型,公正对待所有个体,不偏向种族、性别或其他敏感属性。这不仅涉及在数据集中检测和减轻偏见,还包括设计能够积极抵制此类偏见传播的算法。

当这些模型被部署时,隐私保护成为另一个基础支柱。在数据隐私关注不断升级的时代,保护用户数据的重要性变得前所未有。公众对个人数据处理方式的意识和关注度不断增加,促使对大型模型进行更严格的评估。这些评估侧重于模型保护用户数据的能力,确保个人信息保持机密,不会被意外披露。Mireshghallah等人的研究 ef{121},Plant等人的研究 ef{122},以及Li等人的研究 ef{123},展示了推进保护隐私的方法和技术的努力。

3.6.3 对齐

在应对这些挑战时,确保大型模型的可信度已成为研究人员的主要关注之一 [124, 96, 99, 125]。其中最重要的技术之一是模型对齐 [125, 126],指的是确保模型的行为和输出与人类设计者的意图和道德标准一致的过程和目标。这涉及技术的发展、其道德责任和社会价值。在大型语言模型领域,采用了带有人类反馈的强化学习方法(RLHF) [127, 128],这种方法将强化学习(RL)与直接人类反馈相结合,使模型能够更好地与人类期望和标准一致,理解和执行任务。

3.6.4 讨论

从Sora(具体来说是其技术报告)中,我们总结了一些有见地的发现,这些发现可能为未来的工作提供了有益的指导:

(1) 模型和外部安全的综合保护:随着模型变得更加强大,特别是在生成内容方面,确保它们不被滥用以生成有害内容(如仇恨言论[129]和虚假信息[92, 91])已成为一个严峻挑战。除了调整模型本身外,外部安全保护同样重要。这包括内容过滤和审查机制、使用权限和访问控制、数据隐私保护,以及透明度和可解释性的增强。例如,OpenAI 现在使用检测分类器来判断给定视频是否由 Sora 生成[130]。此外,还部署了文本分类器来检测潜在有害的文本输入[130]。

(2) 多模态模型的安全挑战:多模态模型,如 Sora 等文本到视频模型,由于其理解和生成各种类型内容(文本、图像、视频等)的能力,给安全性带来了额外的复杂性。多模态模型可以以各种形式生成内容,增加了滥用和版权问题的方式和范围。由于多模态模型生成的内容更加复杂和多样化,传统的内容验证和真实性方法可能不再有效。这需要开发新技术和方法来识别和过滤这些模型生成的有害内容,增加了对这些模型生成的内容进行监管和管理的难度。

(3) 跨学科合作的必要性:确保模型的安全性不仅是一个技术问题,还需要跨学科合作。为了解决这些挑战,来自法律131和心理学132等各个领域的专家需要共同努力制定适当的规范(例如,什么是安全的,什么是不安全的?)、政策和技术解决方案。跨学科合作的需求显著增加了解决这些问题的复杂性。

4 应用

Refer to caption

图 18:Sora 的应用

4.1 电影

传统上,创作电影杰作一直是一个费时费力且昂贵的过程,通常需要数十年的努力、尖端设备和大量的财政投资。然而,先进的视频生成技术的出现预示着电影制作的新时代,一个可以从简单文本输入中自主制作电影的梦想正在变为现实。研究人员通过将视频生成模型扩展到电影生成领域,进入了电影生成的领域。MovieFactory [133] 应用扩散模型从由 ChatGPT [89] 生成的详细剧本中生成电影风格的视频,代表了一个重大的飞跃。在随后的 MobileVidFactory [134] 可以仅通过用户提供的简单文本自动生成垂直移动视频。Vlogger [135] 使用户能够创作一分钟长的视频博客成为可能。这些发展,以Sora轻松生成引人入胜的电影内容的能力为代表,标志着电影制作民主化的一个关键时刻。它们展示了一个未来的景象,任何人都可以成为电影制作人,大大降低了电影行业的准入门槛,并引入了一个将传统叙事与人工智能驱动创造力相结合的电影制作新维度。这些技术的影响超越了简化。它们承诺重塑电影制作的格局,在不断变化的观众偏好和分发渠道面前,使其更具可访问性和多样性。

4.2 教育

教育内容的格局长期以来一直被静态资源所主导,尽管这些资源具有价值,但往往无法满足当今学生多样化的需求和学习风格。视频传播模式处于教育革命的前沿,提供了前所未有的机会,以独特的方式定制和使教育材料动态化,从而显著增强学习者的参与度和理解力。这些先进技术使教育工作者能够将文本描述或课程大纲转化为针对个体学习者特定风格和兴趣的动态、引人入胜的视频内容。此外,图像到视频编辑技术提供了创新途径,将静态教育资产转化为互动视频,从而支持各种学习偏好,并可能增加学生的参与度。通过将这些模式融入教育内容创作,教育工作者可以制作涵盖各种主题的视频,使复杂概念对学生更易理解和吸引。Sora在改变教育领域中的应用展示了这些技术的变革潜力。这种向个性化、动态化教育内容的转变预示着教育的新时代。

4.3 游戏

游戏行业不断寻求突破现实感和沉浸感的方法,然而传统游戏开发常常受到预渲染环境和脚本事件的限制。通过扩散模型在实时生成动态、高保真度视频内容和逼真声音效果,承诺克服现有的限制,为开发者提供工具,创造能够有机地响应玩家行为和游戏事件的不断演变的游戏环境。这可能包括生成变化的天气条件、转变的地貌,甚至即时创造全新的场景,使游戏世界更具沉浸感和响应性。一些方法还从视频输入中合成逼真的碰撞声音,增强游戏音频体验。通过将Sora整合到游戏领域,可以创造出引人入胜、吸引玩家的无与伦比的沉浸式体验。游戏的开发、玩法和体验将得到创新,同时为叙事、互动和沉浸提供新的可能性。

4.4 医疗保健

尽管生成能力强大,视频扩散模型在理解和生成复杂视频序列方面表现出色,使它们特别适用于识别人体内的动态异常,如早期细胞凋亡147,皮肤病变进展148,以及不规则的人体运动149,这对于早期疾病检测和干预策略至关重要。此外,像MedSegDiff-V2150151这样的模型利用变压器的力量以前所未有的精度分割医学图像,使临床医生能够在各种成像模式下精确地找到感兴趣的区域。将Sora整合到临床实践中不仅有望完善诊断流程,还能个性化患者护理,根据精确的医学成像分析提供量身定制的治疗方案。然而,这种技术整合也带来了一系列挑战,包括需要健全的数据隐私措施以及解决医疗保健中的伦理考虑。

4.5 机器人技术

视频扩散模型现在在机器人技术中发挥着重要作用,展示了一个新时代,机器人可以生成和解释复杂视频序列,以增强感知[152153]和决策[154155156]。这些模型为机器人解锁了新的能力,使它们能够与环境互动,并以前所未有的复杂性和精确度执行任务。将网络规模扩散模型引入机器人技术[152]展示了利用大规模模型增强机器人视觉和理解的潜力。潜在扩散模型被用于语言指导的视频预测[157],使机器人能够通过视频格式预测行动结果来理解和执行任务。此外,视频扩散模型已经创新地解决了机器人研究对模拟环境的依赖,这些模型能够创建高度逼真的视频序列[158159]。这使得机器人能够生成多样化的训练场景,减轻了由于真实数据稀缺而施加的限制。我们相信,像Sora这样的技术融入机器人领域将带来突破性发展。通过利用Sora的力量,机器人技术的未来将迎来前所未有的进步,使机器人能够无缝地在环境中导航和互动。

5 讨论

Sora展现出了对人类复杂指令的精准理解和实施的非凡才能。这一模型擅长创作带有各种角色的详细视频,所有这些角色都设定在精心打造的场景中。Sora的一个特别令人印象深刻的特点是,它能够制作长达一分钟的视频,同时确保连贯而引人入胜的叙事。这标志着对之前专注于较短视频片段的尝试取得了显著改进,因为Sora的延长序列展现出清晰的叙事流程,并在始终保持视觉一致性的同时进行。此外,Sora通过生成更长的视频序列,捕捉复杂的动作和互动,超越了之前只能处理短片和基本图像的模型的限制。这一进步标志着AI驱动的创意工具迈出了重要的一步,使用户能够将书面故事转化为生动的视频,呈现出以前无法实现的细节和复杂度。

5.1 限制

物理现实主义中的挑战。作为一个模拟平台,Sora展示了一系列限制,削弱了其在准确描绘复杂场景方面的效果。最重要的是在复杂场景中对物理原理的处理不一致,导致无法准确复制特定因果关系的例子。例如,吃掉一小块饼干可能不会留下相应的咬痕,显示系统偶尔脱离物理可信度。这个问题延伸到了模拟运动,Sora生成的动作挑战了真实的物理建模,比如物体的不自然变形或椅子等刚性结构的错误模拟,导致不真实的物理互动。当模拟物体和角色之间的复杂互动时,挑战进一步增加,偶尔产生倾向于幽默的结果。

空间和时间的复杂性。Sora偶尔会误解与在给定提示中放置或安排物体和角色相关的指示,导致对方向产生困惑(例如,将左右搞混)。此外,在保持事件时间准确性方面,它面临挑战,特别是在遵循指定的摄像机移动或序列时。这可能导致偏离场景的预期时间流。在涉及大量角色或元素的复杂情景中,Sora倾向于插入无关的动物或人物。这些添加会显著改变原本设想的构图和场景氛围,偏离计划的叙事或视觉布局。这个问题不仅影响模型准确重现特定场景或叙事的能力,还影响其生成内容与用户期望和生成输出的连贯性密切一致的可靠性。

人机交互(HCI)中的局限性。Sora 在视频生成领域显示出潜力,但在人机交互方面存在显著的局限性。这些局限性主要体现在用户系统交互的连贯性和效率上,尤其是在对生成内容进行详细修改或优化时。例如,用户可能会发现很难精确指定或调整视频中特定元素的呈现,比如动作细节和场景过渡。此外,Sora 在理解复杂语言指令或捕捉微妙语义差异方面的局限性可能导致视频内容无法完全满足用户期望或需求。这些缺点限制了 Sora 在视频编辑和增强方面的潜力,也影响了用户体验的整体满意度。

关于使用限制,OpenAI尚未为Sora的公共访问设定具体的发布日期,强调在广泛部署之前采取谨慎的安全和准备工作。这表明Sora可能仍需要在安全、隐私保护和内容审查等方面进行进一步改进和测试。此外,目前Sora只能生成长达一分钟的视频,根据已发布的案例,大多数生成的视频只有几十秒长。这一限制限制了其在需要更长内容展示的应用中的使用,例如详细的教学视频或深入的叙事。这一限制降低了Sora在内容创作中的灵活性。

5.2 机会

学院。(1) OpenAI引入Sora标志着战略转变,鼓励更广泛的人工智能社区深入探索文本到视频模型,利用扩散和变压器技术。这一举措旨在将焦点转向直接从文本描述中创建高度复杂和微妙视频内容的潜力,这是一项有望彻底改变内容创作、叙事和信息共享的前沿。 (2) 在原始大小数据上训练Sora的创新方法,与传统的调整大小或裁剪方法相反,为学术界带来了开创性的启示。它通过突出利用未经修改的数据集的好处,开辟了新的途径,从而促进了更先进的生成模型的创建。

工业。(1)Sora目前的能力为视频模拟技术的发展指明了一条充满希望的道路,突显了在物理和数字领域内显著增强现实主义的潜力。Sora有望通过文本描述创造高度逼真的环境,为内容创作带来了光明的未来。这一潜力延伸到了革新游戏开发,展示了一个未来的前景,即通过Sora可以轻松准确地打造沉浸式生成的世界。(2)公司可以利用Sora制作能迅速适应市场变化并创造定制营销内容的广告视频。这不仅降低了生产成本,还增强了广告的吸引力和效果。Sora仅凭文本描述就能生成高度逼真的视频内容的能力可能会彻底改变品牌与受众互动的方式,使其能够创作出沉浸式和引人入胜的视频,以前所未有的方式捕捉其产品或服务的本质。

社会。(1) 尽管利用文本到视频技术取代传统电影制作的前景仍然遥远,但Sora和类似平台具有改变社交媒体内容创作的潜力。当前视频长度的限制并不减弱这些工具在使高质量视频制作对每个人都可及的过程中所能产生的影响,使个人能够在无需昂贵设备的情况下制作引人入胜的内容。这代表了向赋权像TikTok和Reels等平台上的内容创作者迈出的重要一步,带来了创意和互动的新时代。(2) 编剧和创意专业人士可以利用Sora将书面剧本转化为视频,帮助他们更好地展示和分享他们的创意概念,甚至制作短片和动画。从剧本中创作出详细、生动的视频能从根本上改变电影制作和动画的前期制作过程,让我们窥见未来讲故事者如何推销、发展和完善他们的叙事。这项技术为更具动态和互动性的剧本开发形式打开了可能性,让想法能够实时可视化和评估,为创意和协作提供了强大的工具。(3) 记者和新闻机构也可以利用Sora快速生成新闻报道或解释性视频,使新闻内容更加生动和引人入胜。这可以显著提高新闻报道的报道范围和观众参与度。通过提供一个可以模拟逼真环境和情景的工具,Sora为视觉叙事提供了强大的解决方案,使记者能够通过引人入胜的视频传达以前难以制作或昂贵的复杂故事。总之,Sora在营销、新闻和娱乐领域革新内容创作的潜力巨大。

6 结论

我们提供了一份全面的Sora综述,以帮助开发人员和研究人员研究Sora的功能和相关工作。该综述基于我们对已发表的技术报告的调查和对现有文献的逆向工程。当Sora的API可用并且有关Sora的进一步细节被揭示时,我们将继续更新这篇论文。我们希望这篇综述论文能成为开源研究社区的宝贵资源,并为社区共同开发Sora的开源版本奠定基础,以在AIGC时代民主化视频自动生成。为了实现这一目标,我们邀请各方进行讨论、提出建议,并展开合作。

参考资料

附录 A 相关作品

我们在表1中展示了一些关于视频生成任务的相关工作。

表1:视频生成摘要。

| 模型名称 | 年份 | 骨干网络 | 任务 | 团队 | | ----------------------------------------------------------------------------- | ---- | -------------------- | ------------------- | ------------------------------ | | Imagen Video | 2022 | 扩散 | 生成 | 谷歌 | | Pix2Seq-D | 2022 | 扩散 | 分割 | 谷歌Deepmind | | FDM | 2022 | 扩散 | 预测 | UBC | | MaskViT | 2022 | 掩蔽视觉模型 | 预测 | 斯坦福,Salesforce | | CogVideo | 2022 | 自回归 | 生成 | 清华大学 | | Make-a-video | 2022 | 扩散 | 生成 | Meta | | MagicVideo | 2022 | 扩散 | 生成 | 字节跳动 | | TATS | 2022 | 自回归 | 生成 | 马里兰大学, Meta | | Phenaki | 2022 | 掩蔽视觉模型 | 生成 | 谷歌Brain | | Gen-1 | 2023 | 扩散 | 生成, 编辑 | RunwayML | | LFDM | 2023 | 扩散 | 生成 | PSU, UCSD | | Text2video-Zero | 2023 | 扩散 | 生成 | Picsart | | Video Fusion | 2023 | 扩散 | 生成 | USAC, 阿里巴巴 | | PYoCo | 2023 | 扩散 | 生成 | Nvidia | | Video LDM | 2023 | 扩散 | 生成 | 马里兰大学, Nvidia | | RIN | 2023 | 扩散 | 生成 | 谷歌Brain | | LVD | 2023 | 扩散 | 生成 | UCB | | Dreamix | 2023 | 扩散 | 编辑 | 谷歌 | | MagicEdit | 2023 | 扩散 | 编辑 | 字节跳动 | | Control-A-Video | 2023 | 扩散 | 编辑 | 中山大学 | | StableVideo | 2023 | 扩散 | 编辑 | 浙江大学, 微软亚洲研究院 | | Tune-A-Video | 2023 | 扩散 | 编辑 | 新加坡国立大学 | | Rerender-A-Video | 2023 | 扩散 | 编辑 | 台湾大学 | | Pix2Video | 2023 | 扩散 | 编辑 | Adobe, 伦敦大学学院 | | InstructVid2Vid | 2023 | 扩散 | 编辑 | 浙江大学 | | DiffAct | 2023 | 扩散 | 动作检测 | 悉尼大学 | | DiffPose | 2023 | 扩散 | 姿势估计 | 吉林大学 | | MAGVIT | 2023 | 掩蔽视觉模型 | 生成 | 谷歌 | | AnimateDiff | 2023 | 扩散 | 生成 | 香港中文大学 | | MAGVIT V2 | 2023 | 掩蔽视觉模型 | 生成 | 谷歌 | | Generative Dynamics | 2023 | 扩散 | 生成 | 谷歌 | | VideoCrafter | 2023 | 扩散 | 生成 | 腾讯 | | Zeroscope | 2023 | | 生成 | EasyWithAI | | ModelScope | 2023 | | 生成 | Damo | | Gen-2 | 2023 | | 生成 | RunwayML | | Pika | 2023 | | 生成 | Pika Labs | | Emu Video | 2023 | 扩散 | 生成 | Meta | | PixelDance | 2023 | 扩散 | 生成 | 字节跳动 | | Stable Video Diffusion | 2023 | 扩散 | 生成 | Stability AI | | W.A.L.T | 2023 | 扩散 | 生成 | 斯坦福,谷歌 | | Fairy | 2023 | 扩散 | 生成, 编辑 | Meta | | VideoPoet | 2023 | 自回归 | 生成, 编辑 | 谷歌 | | LGVI | 2024 | 扩散 | 编辑 | 北大, 新加坡国立大学 | | Lumiere | 2024 | 扩散 | 生成 | 谷歌 | | Sora | 2024 | 扩散 | 生成, 编辑 | OpenAI |

总结
Sora是OpenAI于2024年2月发布的文本到视频生成AI模型,能够根据文本指令生成逼真或想象的场景视频,并在模拟物理世界方面展现潜力。本文基于公开技术报告和逆向工程,全面回顾了该模型的背景、相关技术、应用、挑战和未来发展方向。首先追溯了Sora的发展历程,并调查了构建这个“世界模拟器”所使用的基础技术。然后详细描述了Sora在电影制作、教育和营销等多个行业的应用和潜在影响。讨论了需要解决的主要挑战和限制,如确保安全和公正的视频生成。最后,讨论了Sora和视频生成模型的未来发展,以及该领域的进展如何能够促进人工智能与人类的新型互动方式,提升视频生成的生产力和创造力。