首次体验 RunwayML 的 Gen-3 Alpha 视频生成器


7 个月前

一只可爱的猫咪在户外玩耍,沐浴在美丽日落的柔和光辉中。

突然,猫咪的头掉了下来。它的前半部分和后半部分朝不同的方向走去。视频结束了。

这只是我在初步测试 RunwayML 新款 Gen-3 Alpha 时看到的奇怪结果之一。Gen-3 Alpha 被称为目前市场上最先进的 AI 视频生成器,刚刚于上周结束了私有测试阶段。/proxy?q=https%3A%2F%2Frunwayml.com%2Fblog%2Fintroducing-gen-3-alpha%2F

这使它成为两个可以实际使用的 AI 视频生成器之一(OpenAI 的 Sora 仍然只对像 Tyler Perry 这样的人开放,尽管它以电影和惊艳的 AI 创作镜头让人们惊叹)。

RunwayML 的新模型表现如何?我那只分裂的猫咪是个例外,还是典型输出?我测试了这个新模型,看看它的表现如何——以及它是否能成为 Sora 的竞争者。

世界模型

Gen-3 Alpha 是 RunwayML 最新的 AI 视频生成器。RunwayML 之前的 Gen-2 模型 引起了轰动,因为它是第一个对公众来说相对可行的视频生成器。

Gen-2 很酷,但非常基础。它的输出模糊地像视频,但 Gen-2 的创作往往缺乏细节和真实感。动物有多个鼻子,背景常常模糊,可能是为了掩盖 Gen-2 不知道该放什么。

示例

Gen-3 模型的示例。来源:RunwayML

RunwayML 表示,Gen-3 是“在保真度、一致性和运动方面对 Gen-2 的重大改进,是构建通用世界模型的一步。”

这是一个相当雄心勃勃的声明。通用世界模型本质上是对现实世界的物理、光照、物体和其他元素的计算机化模型。

OpenAI 的 Sora 被广泛认为依赖于一个通过观看数十亿小时视频(包括大部分 YouTube 视频)构建的 通用世界模型

如果 Gen-3 Alpha 使用类似的模型——并且取得良好结果——这将强有力地验证这些模型在创建电影级 AI 生成视频方面确实有用的观点。

惊艳的风景,美味的鸡肉

我决定对 Gen-3 Alpha 进行测试。我注册了一个付费账户(每月 15 美元),开始测试。

首先,我给 Gen-3 Alpha 提供了一些相对简单的视频提示。与 Gen-2 和其他竞争系统(包括 Luma 的 AI 生成器)不同,Gen-3 Alpha 不允许你上传图像来提示系统——它只允许基于文本的提示。

为了获得最佳结果,RunwayML 建议以 超具体的方式 编写提示。

基本上,你需要像摄影师一样描述镜头,加入“FPV”、“微距摄影”、“SnorriCam”这样的术语,或者像“威尼斯灯光”或“漫射光”这样的光照风格,以实现你想要的镜头。

我从一个简单的空中镜头开始,拍摄太平洋沿岸的高尔夫球场。我的确切提示是:“广角;相机在阳光明媚的日子里平移,拍摄俯瞰太平洋的高尔夫球场的一个洞。”

到目前为止一切顺利!这个镜头看起来非常真实,捕捉到了我想要的美学。在我脑海中,我想到了 Half Moon Bay Golf Links,这是一座我拍摄过很多次的真实太平洋高尔夫球场。

这是现实中的地方:

现实中的地方

Gen-3 Alpha 视频中的氛围恰到好处。我们有修剪整齐的球场、悬崖,甚至背景中的海浪拍打声。

接下来,我尝试了另一种流行的镜头类型——美食视频。在这种情况下,我要求:“特写;在餐桌上平移一盘炸鸡。”

在我看来,这看起来更像是鸡肉 piccata 而不是炸鸡。不过,这里的细节令人印象深刻——Gen-3 甚至在背景中想象出一杯啤酒和一盘布鲁塞尔芽菜来搭配我们的鸡肉。

我还喜欢这一点,它完美捕捉了真实美食视频中犹豫不决、颤抖的镜头工作。这感觉像是一个人可能在餐厅拍摄的——如果你在社交媒体上看到,你绝对会认为这是真的。

最后,我让 Gen-3 Alpha 创建一些更奇怪的东西——一个我七岁儿子想出的提示。我发现孩子们总能想出最好的 AI 生成照片和视频的创意。我的儿子想看看“驴子骑在火车上”。

这是结果:

别让我动

到目前为止,我的结果看起来很不错。但为了全面测试系统,我决定给它一些更具挑战性的提示。

具体来说,我开始给它一些需要超过简单平移镜头或简单场景的提示。相反,我要求 动态——物体移动和互动。

这就是问题出现的地方。

首先,我要求:“手机视频;一只比熊犬从沙发上跳到一个非常高的书架上。”

这太奇怪了!首先,我们得到的看起来像是一只约克夏犬,而不是比熊犬。出于某种原因,视频是倒放的。

当狗跳跃时,它不知为何长出了另一个头,随后在它落在书架上时(慢动作!)消失了。

接下来,我要求一个千禧一代的女性在做饭。结果是:

同样,要求场景中的物体相互作用似乎会破坏系统。

烹饪工具不断变形,从一个带孔的勺子变成某种金属铲子。当这个人的手搅拌菜肴时,锅底似乎出现了一个烧焦的洞。

然后,当然,还有分裂的猫咪!

对于这个,我甚至没有要求动态——我只是想要一只可爱的猫咪。但通过试图让猫咪玩耍,Gen-3 Alpha 不小心创造了一个深深令人不安(但又奇怪地引人注目)的片段。

发生了什么?

为什么 Gen-3 Alpha 在尝试让物体互动时会失败?

一般来说,AI 视频生成器在动态方面表现不佳。正如 OpenAI 披露的,即使是它的旗舰产品 Sora “可能在模拟复杂场景的物理方面存在困难,并且可能无法理解因果关系的具体实例(例如:一个饼干在角色咬它后可能不会留下印记)。”

Sora 的示例视频包括一群小狗玩耍的场景,新的小狗突然随机出现。它还包括一个祖母吹灭蛋糕上的蜡烛的视频——尽管她在吹气(她的家人也在鼓掌),蜡烛却没有熄灭。

这些错误与我在测试 Gen-3 Alpha 时看到的错误非常相似。

有趣的是,Luma Lab 的 Dream Machine 似乎并没有遭受这些相同的问题。在我的测试中,它犯了其他错误,但似乎在模拟动态方面没有那么挣扎。

这是为什么呢?这些困难可能是特定于创建 AI 视频的通用世界模型方法。

像 Sora 和 Gen-3 Alpha 这样的模型试图模拟它们正在创建的场景的物理。这是一种强大的方法,因为它允许模型创建几乎任何事物的极其真实的视频。但这也意味着——如果物理失败——视频看起来清晰明了,但绝对荒谬。

Luma Lab 对其模型的方法没有太多讨论。但根据我的测试,它的生成器似乎是通过创建一个 AI 图像,然后将其演变为视频。

这与试图在机器的硅脑中模拟整个世界截然不同。物理和互动可能受到基础图像具体细节的限制。

这使得像 Dream Machine 这样的系统可能在能力上较弱,也不太能生成长视频。但这也使它们不容易出现 Runway Gen-3 Alpha 经常出现的奇怪错误。

与大多数生成 AI 的情况一样,问题可能归结为训练数据。Runway Gen-3 Alpha 和 Sora 通过观看大量视频创建了它们的通用世界模型。当它们模拟在网络视频中经常出现的事物时——如平移一些食物或展示美丽的风景——这很好。

但当它们被要求创造一些全新的东西——比如一只比熊跳到书架上——训练数据就不够了。它们的通用世界模型对现实世界的那个特定部分没有可见性。因此它们失败了。

未来

随着时间的推移,这个差距将会缩小。随着像 Gen-3 Alpha 这样的系统吸收更多的训练视频,并且它们对现实世界物理的理解提高,它们的通用世界模型将会非常有用。

再次强调,通用世界模型允许模拟更复杂的场景。它们还允许生成更长的视频片段(Sora 自夸能够生成长达一分钟的片段)。通用世界模型本质上是在每次构思视频时创建现实的虚拟副本,因此它可以在那个虚拟世界中花费尽可能多的时间来模拟事物。

尽管存在缺陷,Gen-3 Alpha 对整个 AI 视频领域来说也是一个巨大的进步。RunwayML 在推出通用世界模型方面的成功(尽管有双头狗的例外)表明,如果 OpenAI 最终推出 Sora,它将在这个领域面临强有力的竞争。随着 RunwayML 模型的改进,它们可能会成为 Sora 的竞争者。

像 Gen-3 Alpha 这样的模型在某些方面表现极佳(即,创建动态有限且展示在线视频中常见场景的视频),而在其他方面则表现得相当糟糕。

未来,通用世界模型可能能够创建电影长度的视频,模拟具有多个设置、角色和场景的复杂虚拟世界。

不过现在,还是分裂的猫咪占据了主导地位!

在过去的一年里,我测试了数千个 ChatGPT 提示。作为一名全职创作者,有一些我每天都会使用的提示,符合我在本文中提到的伦理使用。我将它们整理成了一本免费的指南,《创作者的七个极其有用的 ChatGPT 提示》。今天就来获取一份吧!

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved