谷歌发布Veo 2.0 AI视频生成器,你的创意将如何被颠覆?
4 个月前
在 OpenAI 向公众推出 Sora 仅仅几天后,Google 迅速回应,发布了其最新且最先进的 AI 视频模型——Veo 2.0。这个新版本的 Veo 带来了一些非常酷炫的新功能,包括 4K 分辨率、改进的相机控制,以及相比前代产品大幅提升的整体质量。
Veo 2.0 的发布时间让人不禁猜测:Veo 2.0 是否比 Sora 更出色?
如果你是第一次听说 Veo,它是 Google 的 AI 视频模型,能够根据文本描述生成视频。Veo 的第一个版本于 2024 年 5 月推出,但从未向公众开放。如今,Google 发布了 Veo 2.0,带来了显著的改进和更广泛的功能。
Veo 2.0 有哪些新功能?
Google 在 Veo 2.0 中引入了三项新功能。
- 增强的真实感和细节表现
- 先进的运动捕捉能力
- 更丰富的相机控制选项
图片来自
为了展示 Veo 2.0 的能力,Google 对其与其他领先的视频生成模型(如 Meta 的 Movie Gen、Kling v1.5、Minimax 和 Sora Turbo)进行了人工评估。
评估者观看了使用 Meta 的 MovieGenBench 数据集中的提示生成的 1,003 个视频样本。视频在 720p 分辨率下进行比较,时长各不相同:Veo 的样本为 8 秒,VideoGen 的样本为 10 秒,其他模型的输出为 5 秒。
图片来自 Google
从上面的表格中可以看出,Veo 2 在整体偏好和准确遵循提示的能力方面表现最佳。
当然,考虑到 Google 在产品发布方面的历史记录并不完美,你需要对这些基准持保留态度。在做出任何结论之前,亲自体验这些 AI 视频生成器总是很重要的。
X 用户 Blaine Brown 进行了一个有趣的实验,他让多个视频模型生成厨师切牛排的视频。这对 AI 模型来说非常具有挑战性,因为涉及到手部动作、连续的切割物理和运动、对“完美烹饪牛排”的理解、蒸汽、汁液等。
以下是提示和最终结果:
提示: 一双手熟练地在木制砧板上切一块完美烹饪的牛排,淡淡的蒸汽从中升起。
从这些结果中可以看出,只有 Veo 2.0 能够生成令人信服的切肉视频。
Veo 2.0 的关键功能
让我们更详细地看看这些新功能,首先是增强的真实感和细节表现。
根据 Google 的说法,Veo 2.0 在细节、真实感和减少伪影方面迈出了一大步。该模型可以生成具有高度准确纹理、自然运动和电影质感的视频,远超其前代产品。
提示: 一个极近距离的镜头聚焦在一位女 DJ 的脸上,她美丽、浓密的黑色卷发衬托出她的五官,她完全沉浸在音乐中。她的眼睛闭着,迷失在节奏中,嘴角带着一丝微笑。镜头捕捉到她随着节拍点头和摇摆的细微动作,她的身体本能地回应着通过耳机传出的音乐,并传递给观众。浅景深模糊了背景,她周围是充满活力的霓虹色彩。特写镜头突出了她迷人的存在感和音乐的力量,能够让人沉浸其中并超越现实。
视频来自 Google
说实话,这个视频的质量让我震惊。乍一看,你甚至不会认为这是 AI 生成的视频。皮肤纹理细腻,头部动作流畅,甚至细微的相机抖动也增加了场景的真实感。
这种真实感也体现在纹理和材质上。例如,Veo 2.0 生成的一个透明岩石的视频。
视频来自 Joey Babcock
AI 准确地模拟了光线如何通过半透明表面反射和折射。这是许多视频模型仍然难以实现的效果。
接下来,我们来看看 Veo 2 的先进运动捕捉能力。根据 Google 的博客,新模型在理解物理和遵循详细指令方面表现出色。
看看这个切番茄的示例视频。
提示: 一双手熟练地在木制砧板上切一个成熟的番茄。
视频来自 Google
生成的视频感觉非常自然,刀子无缝地切过番茄。运动物理——番茄在受到冲击时的轻微移动以及刀子的动作——处理得非常准确。
使用相同的提示,以下是 OpenAI 的 Sora 如何解释它:
视频来自 X
如你所见,Sora 仍然难以表现现实世界的物理效果。
再看另一个例子:
提示: 这个中景镜头,浅景深,描绘了一个可爱的卡通女孩,她有着波浪状的棕色头发,笔直地坐在 1980 年代的厨房里。她的头发中等长度,呈波浪状。她有一个小巧、略微上翘的鼻子和小而圆的耳朵。她非常活泼,兴奋地与镜头交谈。
这将颠覆 3D 动画。看看角色的头发。每一根发丝都像在现实世界中一样自然地反应,随着角色的动作而自然摆动。
最后,Veo 2 有一个全新的相机控制功能,使其能够精确解释指令,创建各种镜头风格、角度、运动以及这些的组合。
这里有一个有趣的例子,由 Jerrod Lew 在 X 上分享,他展示了 Veo 如何在场景中进行提示切换,以产生更具电影感的输出。
提示: 一个人在咖啡馆里坐着喝咖啡的视频。过了一会儿,切换到另一个视角,揭示附近桌子上的人正在给他们写信。
视频来自 Google
注意到相机如何在场景之间切换了吗?如果你想在一个提示中生成多个场景,这将非常有用。这种功能在其他 AI 视频生成工具中是不可用的,甚至 OpenAI 的 Sora 也没有。
对于电影制作人、营销人员和内容创作者来说,这些工具为更复杂的 AI 生成叙事打开了大门。Veo 现在可以通过一个提示处理复杂的多角度视频制作,而不需要拼接多个场景。
如何使用 Veo 2.0 生成视频
前往 Google Labs,从可用的 AI 工具列表中选择“VideoFx”。
图片来自
如果你是幸运的早期用户之一,通过 VideoFx 获得了 Veo 2.0 的访问权限,你应该会在左侧看到一个提示框,你可以在其中描述你想要生成的视频。
当你点击“创建视频”按钮时,VideoFx 会一次性生成四个变体。你可以重新生成以获取更多变体,或者将视频下载到本地磁盘。
图片来自
一些用户还注意到了“文本到图像到视频”功能,该功能允许你使用 Imagen 3 生成图像,然后使用 Veo 2.0 将该图像转换为视频。
图片来自
关于 Veo 2 你需要知道的事情
- Veo 仍然会“幻觉”,有时会产生不必要的细节,比如多余的手指或意外的物体。
- Veo 2 的输出包含一个不可见的 SynthID 水印,帮助识别它们是 AI 生成的,从而减少错误信息和错误归因的可能性。
- Veo 可以生成分辨率是 Sora 的 4 倍、时长是 Sora 的 6 倍以上的视频。
- 油管
根据 Google DeepMind 的产品副总裁 Eli Collins 的说法,尽管结果令人鼓舞,但仍有改进的空间。
“Veo 可以持续遵循几分钟的提示,但无法在长时间内遵循复杂的提示。同样,角色一致性也是一个挑战。在生成复杂细节、快速和复杂运动以及继续推动真实感边界方面,仍有改进的空间。” — Eli Collins
如何访问 Veo 2.0?
油管 并点击“加入等待列表”按钮来加入等待列表。
图片来自
一旦你获得访问权限,你将通过电子邮件收到通知。不幸的是,目前尚不清楚需要多长时间,或者 Google 如何选择可以访问 Veo 2.0 的用户。
最后感想
我原本以为 OpenAI 会凭借其“12 天圣诞发布”碾压 Google,但混乱的 Sora 发布给了 Google 一个完美的机会,用 Veo 2.0 抢走了风头。这里的真实感令人印象深刻。物理和一致性远远领先,而且它能够生成长达一分钟的 4K 视频已经是一个巨大的成就。
我非常高兴 Google 发布了这个模型。几个月来,我一直在等待 Kling 和 Runway 之外的更多选择。这样的竞争正是我们所需要的。话虽如此,Google 或 DeepMind 尚未提及定价。我真的希望他们不要像 OpenAI 那样,为最佳设置收取每月 200 美元的费用。
如果我对 Google 有一个愿望清单,那就是:将 Veo 与 Gemini 订阅捆绑在一起,增加更多创意控制,如不同的宽高比、分辨率和视频长度,并附带商业许可。那将是完美的。
FluxAI 中文
© 2025. All Rights Reserved