《AI创作时代来了!你准备好了吗?》


4 个月前

过去几天,创新领域是不是让人惊叹不已?谷歌再次推出了最新的视频和图像生成工具:Veo 2。无论是创作者还是企业,Veo 2 都以其模糊创意与技术边界的特性为核心。那么,这些工具到底有何特别之处?让我们一探究竟。

Veo 2:

在视频生成领域,Veo 2 是一个标杆性的新功能。在与其他顶尖竞争对手的直接对比中,人类用户一致认为 Veo 2 表现最佳。它展示了生成电影级视频的能力,能够完全理解现实世界的物理规律和人类动作,从而创造出令人惊叹的城市景观。

Veo 2 的关键特性

4K 高清视频质量:它能够生成超高清画面,视频时长可达数分钟。

先进的运动捕捉能力:得益于对物理规律的深刻理解和对细节指令的精准执行,Veo 2 能够高度准确地呈现运动。

更丰富的镜头控制选项:能够精确解读指令,创造出多种镜头风格、角度和运动方式,甚至可以将这些元素组合在一起。

增强的真实感和细节还原:在细节、真实感和减少人工痕迹方面,Veo 2 显著优于其他 AI 视频生成模型。

提示词示例:
这是一个中景镜头,带有浅景深效果,描绘了一个可爱的卡通女孩,她有着波浪状的棕色头发,坐在 20 世纪 80 年代的厨房里。她的头发中等长度,略带波浪。她有一个小巧、微微上翘的鼻子和圆润的小耳朵。她非常活泼,兴奋地对着镜头说话。

提示词示例:
太阳缓缓升起,照亮了一顿完美摆盘的早餐场景。浓稠的金色枫糖浆以慢动作倾倒在蓬松的煎饼上,每一块煎饼都散发出柔和的蒸汽。特写镜头中,脆皮培根滋滋作响,金色的油脂小颗粒飞溅到空中。咖啡以流畅的旋涡状倒入一个晶莹剔透的杯子,深棕色的咖啡油脂层层叠叠。镜头最后以一个俯冲镜头结束,聚焦在一个新鲜切开的橙子上,展现出其明亮多汁的果肉细节。

提示词示例:
镜头缓缓穿过一排排粉彩木制蜂箱,蜜蜂在画面中穿梭。镜头最终定格在一位优雅的养蜂人身上,他站在中央,洁白的养蜂服在金色的午后阳光下闪耀。他举起一罐蜂蜜,微微倾斜以捕捉光线。他身后,高大的向日葵在微风中摇曳,花瓣在温暖的阳光下闪闪发光。镜头向上倾斜,露出一座复古农舍,薄荷绿色的百叶窗上点缀着摇曳树影。使用 35mm 镜头和柯达 Portra 400 胶片拍摄,金色的光线在养蜂人的手套、果酱罐和蜂箱的木质纹理上形成了丰富的质感。

基准测试

在与顶尖视频生成模型的对比中,Veo 2 在人类评分中取得了最先进的结果。

参与者通过 Meta 发布的基准数据集 MovieGenBench 查看了 1003 个提示词及其生成的视频。Veo 2 在整体偏好和准确遵循提示词的能力上表现最佳。

图片
图片来自 Veo 2

图片
图片来自 Veo 2

所有对比均在 720p 分辨率下进行。Veo 的样本时长为 8 秒,VideoGen 的样本时长为 10 秒,其他模型的样本时长为 5 秒。我们向评分者展示了完整的视频时长。

局限性

尽管 Veo 2 展现了惊人的进步,但在生成逼真、动态或复杂的视频,以及在复杂场景或复杂运动中保持一致性方面,仍然存在挑战。我们将继续在这些领域进行开发和优化。

图片
图片来自 Veo 2

提示词示例:
镜头以缓慢的推轨镜头移动,展现出一间文艺复兴时期宫殿的奢华,房间内装饰着镶金家具、天鹅绒窗帘和摇曳的枝形吊灯。一位女王一动不动地坐在一张镀金书桌前,她的深红色丝绸长裙像鲜血一样流淌在地板上。书桌上放着一封未署名的信,边缘因年代久远而卷曲。镜头从她身后拍摄,捕捉到她坚毅的面容在一面巨大的华丽镜子中的倒影。背景中,朝臣们低声交谈,他们的剪影像幽灵一样在烛光中舞动。房间充满了沉重的气氛,每一处镀金细节都加剧了背叛和偏执的氛围。色调在深红色和冷金色之间交替,明暗对比的光影增强了戏剧性。使用 70mm 胶片拍摄,呈现出丰富的质感,唤起了历史杰作的宏伟。

Veo 2 与 Sora 的对比

在 AI 生成视频的竞争环境中,Veo 2 作为一款前沿模型,有时甚至超越了 OpenAI 的 Sora。以下是 Veo 2 相对于 Sora 的快速价值分析。

质量和分辨率:

图片
图片来自 Veo 2

  • Veo 2:支持生成数分钟的 4K 分辨率视频,提供非常壮观的视觉效果,带来电影级的体验。

图片
图片来自 Sora

  • Sora:在分辨率和更精细的电影细节(如镜头效果和景深)方面,有时会稍显不足。

电影理解能力

  • Veo 2:展现出对电影摄影的深刻理解,允许用户精确指定镜头类型、拍摄角度和视觉效果。无论是广角镜头还是戏剧性的特写,Veo 2 都能出色地创造出电影般的体验。
  • Sora:虽然提供了不错的效果,但在镜头类型和电影摄影效果的控制上,缺乏 Veo 2 的细腻度。

物理真实感

图片
短视频来自 ViralVeritas

Veo 2:在模仿现实世界的物理规律和人类动作方面表现出色,能够生成逼真的动画和场景,让人感到非常真实和沉浸。
Sora:虽然能够呈现相对真实的场景,但在处理复杂动作或快速移动的环境时,仍有一些困难。

并排对比视频

FluxAI 中文

© 2025. All Rights Reserved