【大视频模型】OpenAI视频生成模型Sora 作为世界模拟器

视频号

微信公众号

知识星球

语言 Chinese, Simplified

我们探索在视频数据上对生成模型进行大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用了一种转换器架构，该架构对视频和图像潜在代码的时空补丁进行操作。我们最大的型号Sora能够生成一分钟的高保真视频。我们的研究结果表明，缩放视频生成模型是构建物理世界通用模拟器的一条很有前途的途径。

https://cdn.openai.com/tmp/s/title_0.mp4

本技术报告侧重于（1）我们将所有类型的视觉数据转化为统一表示的方法，该方法能够对生成模型进行大规模训练，以及（2）对索拉的能力和局限性进行定性评估。模型和实施细节未包含在本报告中。

许多先前的工作已经使用各种方法研究了视频数据的生成建模，包括递归网络、1，2，3生成对抗性网络、4，5，6，7自回归变换器、8，9和扩散模型。10，11，12这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora是一个通用的视觉数据模型，它可以生成不同持续时间、宽高比和分辨率的视频和图像，最高可达一分钟的高清视频。

将视觉数据转化为补丁

我们从大型语言模型中获得灵感，这些模型通过在互联网规模的数据上进行训练来获得通才能力。13，14 LLM范式的成功部分归功于使用了巧妙地统一了文本的各种形式——代码、数学和各种自然语言——的令牌。在这项工作中，我们考虑视觉数据的生成模型如何继承这些优势。LLM有文本标记，而Sora有视觉补丁。补丁先前已被证明是视觉数据模型的有效表示。15，16，17，18我们发现补丁是在不同类型的视频和图像上训练生成模型的高度可扩展和有效的表示。

在高水平上，我们通过首先将视频压缩到较低维度的潜在空间19中，然后将表示分解为时空补丁，将视频转化为补丁。

视频压缩网络

我们训练了一个降低视觉数据维度的网络。20这个网络以原始视频作为输入，并输出一个在时间和空间上都被压缩的潜在表示。索拉在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了一个相应的解码器模型，该模型将生成的延迟映射回像素空间。

时空潜在修补程序

给定压缩的输入视频，我们提取一系列时空补丁，这些补丁充当变换器令牌。这种方案也适用于图像，因为图像只是具有单个帧的视频。我们基于补丁的表示使Sora能够在不同分辨率、持续时间和纵横比的视频和图像上进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。

用于视频生成的缩放变压器

索拉是一个扩散模型21，22，23，24，25；给定输入噪声补丁（以及文本提示等条件信息），它被训练来预测原始的“干净”补丁。重要的是，索拉是一个扩散变换器。26变换器在各种领域都表现出了显著的缩放特性，包括语言建模、13、14计算机视觉、15、16、17、18和图像生成。27、28、29

在这项工作中，我们发现扩散变压器也可以有效地扩展为视频模型。下面，我们展示了随着训练的进行，具有固定种子和输入的视频样本的比较。随着训练计算量的增加，样本质量显著提高。

https://cdn.openai.com/tmp/s/scaling_0.mp4

https://cdn.openai.com/tmp/s/scaling_1.mp4

https://cdn.openai.com/tmp/s/scaling_2.mp4

可变持续时间、分辨率、纵横比

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小，例如，分辨率为256x256的4秒视频。我们发现，相反，对数据进行原生规模的训练可以带来几个好处。

采样灵活性

索拉可以对宽屏幕1920x1080p视频、垂直1080x1920视频以及其间的所有视频进行采样。这使Sora可以直接按照不同设备的固有纵横比为其创建内容。它还允许我们在以全分辨率生成之前快速原型化较低大小的内容——所有这些都使用相同的模型。

https://cdn.openai.com/tmp/s/sampling_0.mp4

https://cdn.openai.com/tmp/s/sampling_1.mp4

https://cdn.openai.com/tmp/s/sampling_2.mp4

改进了框架和构图

我们根据经验发现，以视频的固有长宽比进行视频训练可以改善构图和取景。我们将Sora与我们的模型的一个版本进行比较，该版本将所有训练视频裁剪为正方形，这是训练生成模型时的常见做法。在方形裁剪上训练的模型（左）有时会生成仅部分可见主题的视频。相比之下，索拉（右）的视频有了更好的取景效果。

https://cdn.openai.com/tmp/s/sampling_3.mp4

https://cdn.openai.com/tmp/s/sampling_4.mp4

语言理解

训练文本到视频生成系统需要大量具有相应文本字幕的视频。我们将DALL·E330中引入的重字幕技术应用于视频。我们首先训练一个高度描述性的字幕器模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，对高度描述性视频字幕的训练可以提高文本保真度以及视频的整体质量。

与DALL·E 3类似，我们还利用GPT将简短的用户提示转换为发送到视频模型的更长详细的字幕。这使索拉能够准确地按照用户提示生成高质量的视频。

一个穿着紫色工作服和牛仔靴的老人在美丽的日落中在南极洲愉快地漫步

一名身穿蓝色牛仔裤和白色t恤的女子在冬季风暴中在南极洲愉快地散步

一只可爱的袋鼠穿着紫色工装裤和牛仔靴，在美丽的日落中，在南非约翰内斯堡愉快地散步

vedio

使用图像和视频进行提示

上面和我们的登录页中的所有结果都显示了文本到视频的示例。但索拉也可以被其他输入提示，例如预先存在的图像或视频。这一功能使索拉能够执行广泛的图像和视频编辑任务——创建完美循环的视频、为静态图像设置动画、在时间上向前或向后扩展视频等。

DALL·E图像动画制作

索拉能够生成提供图像和提示作为输入的视频。下面我们展示了基于DALL·E 231和DALL·E 330图像生成的示例视频。

https://cdn.openai.com/tmp/s/prompting_0.png

https://cdn.openai.com/tmp/s/prompting_1.mp4

A Shiba Inu dog wearing a beret and black turtleneck.

https://cdn.openai.com/tmp/s/prompting_3.mp4

怪物插图采用平面设计风格，描绘了各种各样的怪物家族。这群人包括一只毛茸茸的棕色怪物、一只带天线的光滑黑色怪物、一个斑点绿色怪物和一个小圆点怪物，所有这些都在一个有趣的环境中互动。

https://cdn.openai.com/tmp/s/prompting_5.mp4

An image of a realistic cloud that spells “SORA”.

https://cdn.openai.com/tmp/s/prompting_7.mp4

在一个华丽的历史大厅里，一股巨大的潮汐达到顶峰并开始撞击。两名冲浪者抓住时机，熟练地驾驭着海浪。

扩展生成的视频

索拉还能够在时间上向前或向后扩展视频。以下是四个视频，它们都是从生成的视频片段开始向后扩展的。因此，四个视频中的每个视频的开头都与其他视频不同，但所有四个视频的结局都相同。

https://cdn.openai.com/tmp/s/extend_2.mp4

我们可以使用这种方法向前和向后扩展视频，以产生无缝的无限循环。

https://cdn.openai.com/tmp/s/bike_1.mp4

视频到视频编辑

扩散模型已经实现了从文本提示编辑图像和视频的大量方法。下面我们将其中一种方法SDEdit，32应用于索拉。这项技术使Sora能够转换零样本输入视频的风格和环境。

Input video

https://cdn.openai.com/tmp/s/edit/base.mp4

将环境更改为郁郁葱葱的丛林

https://cdn.openai.com/tmp/s/edit/0.mp4

连接视频

我们还可以使用Sora在两个输入视频之间逐渐插值，在具有完全不同主题和场景组成的视频之间创建无缝过渡。在下面的示例中，中心的视频在左侧和右侧的相应视频之间进行插值。

图像生成功能

索拉还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达2048x2048。

新兴的模拟能力

我们发现，视频模型在大规模训练时表现出许多有趣的突发能力。这些功能使索拉能够从物理世界模拟人、动物和环境的某些方面。这些特性的出现对3D、物体等没有任何明显的归纳偏差——它们纯粹是尺度现象。

3D一致性。

索拉可以生成具有动态相机运动的视频。随着相机的移动和旋转，人和场景元素在三维空间中一致移动。

远距离连贯性和物体持久性。

视频生成系统的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现Sora通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，我们的模型可以持久化人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，从而在整个视频中保持其外观。

与世界互动。

索拉有时可以用简单的方式模拟影响世界状态的动作。例如，一个画家可以在画布上留下新的笔触，并随着时间的推移而持续，或者一个男人可以吃汉堡并留下咬痕。

模拟数字世界。

索拉还能够模拟人工过程，例如电子游戏。索拉可以用一个基本策略同时控制《我的世界》中的玩家，同时也可以高保真地渲染世界及其动态。这些功能可以通过提示索拉使用提及“我的世界”的标题来引发零样本

这些能力表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高效模拟器的一条很有前途的道路。

讨论

索拉目前作为一个模拟器表现出许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，比如玻璃破碎。其他相互作用，比如吃食物，并不总是能产生物体状态的正确变化。我们在登录页中列举了该模型的其他常见故障模式，如长时间样本中出现的不相干或对象的自发出现。

我们相信，索拉今天的能力表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条很有前途的道路。

本文地址

https://architect.pub/openai-video-generation-models-world-simulators

159 次浏览

SEO Title

OpenAI Video generation models Sora as world simulators