OpenAI的Sora终于来了!你准备好了吗?
5 个月前
经过 10 个月的传闻、泄露和各种 AI 爱好者的猜测性推文,OpenAI 终于推出了他们备受期待的 AI 视频生成模型——Sora。
几天前,AI 社区就已经预料到 Sora 的发布,而我则像那些急于抢购限量版球鞋的狂热粉丝一样,不断刷新 Sora.com 的页面。
如果你无法访问该网站,可以查看支持的国家的列表 这里。如果你的国家不在列表中,你可能需要使用 VPN。
说实话,我对 Sora 的期待并不高。自从我们上次听到关于 OpenAI 视频模型的重大消息已经过去了将近 10 个月,而像 Kling AI、Runway Gen-3 和 Hailou AI 这样的新秀已经在不断进步,我以为 Sora 会姗姗来迟。
但不得不说,在看到一些用户分享的输出结果后,我感到非常惊艳。它可能真的会给那些竞争对手带来不小的压力。
来自 Sora 的图片
不过,被几个初始样本惊艳到并不意味着我已经完全被说服。在 AI 视频工具中,有许多重要的因素需要考虑:
- 支持的输入媒体(文本、图像和视频)
- 生成速度
- 输出质量(分辨率、连贯性和长度)
- 编辑控制(延长、修剪、合并等)
- 定价
这些是我关注的重点。我想看看 Sora 是否能够满足足够多的条件,证明它的使用价值,并最终判断它是否值得付费。
什么是 Sora?
如果你第一次听说 Sora,它是 OpenAI 推出的一款 AI 视频生成工具,可以从文本、图像甚至其他视频中生成短视频片段。
今年早些时候,OpenAI 推出了 Sora 的初始版本,概述了他们在“世界模拟”方面的进展——基本上,就是教模型理解和表示物理世界的各个方面。
你可以在下面的文章中了解更多细节:
OpenAI 的 Sora AI 视频生成器令人惊叹
现在,随着 Sora Turbo 的推出,这是一个更快、更精致的版本,他们将其作为独立产品提供给 ChatGPT Plus 和 Pro 用户,访问地址为 Sora.com。
Sora 的工作原理
使用 Sora 视频编辑器,你可以创建长达 20 秒的视频,同时保持较高的视觉质量并遵循你的提示。
以下是基本流程:
在屏幕底部,你可以输入你想要生成的视频的文本描述。
来自 Sora 的图片
如果你更倾向于从现有图像或视频开始,点击输入框中的“+”选项上传你的文件。请记住,你必须拥有上传内容的版权,并且未经他人书面明确许可,不得上传他人的图像或视频。
在提交之前,检查并调整你的设置。你可以更改宽高比、分辨率、时长和变体数量。这些选择将影响生成视频所需的信用点数。将鼠标悬停在“?”图标上,可以查看所选设置的信用使用情况。
来自 Sora 的图片
一旦你提交了提示,Sora 将开始处理,这可能需要长达一分钟的时间。你可以通过点击页面右上角的图标来跟踪视频的生成进度。
视频生成完成后,将鼠标悬停在库中的预览上,查看所有变体。
来自 Sora 的图片
点击特定变体以查看更多细节并访问编辑工具。然后你可以对 Sora 生成的片段进行细化、混音或延长,进一步扩展创作。
来自 Sora 的图片
看起来很棒。这让我想起了 Kling、Runway 或 RenderNet AI 的视频编辑工具。
示例视频
现在让我们来看看 Sora 生成的一些视频以及我对每个视频的看法。
提示 #1: 一个宁静而超凡的场景以高分辨率的数字清晰度展开,捕捉到一个极简主义海滩在黄昏时分,时尚装扮的人物躺在由纤细芦苇编织的漂浮椅上,悬浮在轻柔的波浪之上;海洋散发出空灵的烟雾颗粒,升起并在空中形成抽象图案;水中的生物发光浮游生物发出柔和的光芒,为场景增添了魔幻的光线,椅子沿着海岸线轻松漂浮。
由 Sora 生成的视频
烟雾和水花看起来非常细致。我也喜欢人物在水上漂浮时的表现。似乎 Sora 知道物体在物理环境中应该如何移动和互动。
提示 #2: 鲸鱼翱翔天际。(微调混音): 让视频更加生动,蝴蝶更加多彩。
由 Sora 生成的视频
这个例子有点棘手,因为它不是关于让它看起来真实,而是关于让它看起来美丽和生动。Sora 仍然做到了。
蝴蝶看起来更加多彩,整个场景感觉更加梦幻,就像童话故事中的场景。它不必遵守现实世界的物理规则,但仍然呈现出专业和精致的效果。
提示 #3: 日本冬季市场 (故事板)
由 Sora 生成的视频
人类一直是 AI 视频模型的难点。即使在这里,我也注意到一些奇怪的细节——指甲看起来很奇怪,四肢可能有些不对劲。大多数现有模型都在处理人类解剖结构时遇到困难,Sora 也不例外。它并不完美,但我可以看到相比之前看到的模型有所改进。
提示 #4: 克拉肯攻击的混乱场景。镜头模糊,色彩对比强烈,画面质感类似于实拍素材,低可见性营造出紧迫感和混乱感。
由 Sora 生成的视频
这个例子展示了 Sora 在营造特定氛围方面的优势。模糊的场景、对比度和实拍素材的感觉都到位了。这感觉像是可以融入电影预告片或短片场景的作品。令人印象深刻的是,Sora 能够处理这些电影美学。
提示 #5: 闪亮动物园水族馆 (故事板)。 纽约市的“闪亮动物园”商店既是珠宝店又是动物园。
由 Sora 生成的视频
这个例子是关于文字和标志的。AI 模型通常在处理文字时遇到困难,Sora 也不例外。虽然整体场景看起来不错,但拼写错误且文字不准确。这与图像生成器的情况类似。渲染文字仍然是一个巨大的挑战。
Sora 的关键特性
让我注意的一点是 OpenAI 为 Sora 推出的界面。他们不仅仅给我们一个提示框就完事了。他们引入了一系列功能:故事板工具、混音、重新剪辑、循环、混合和风格预设。
- 混音: 通过更改背景、替换对象或添加和删除元素来调整场景。
- 重新剪辑: 重新剪辑让你缩短和延长视频帧。
- 故事板: 逐帧布局视频,让你对复杂序列有更多控制。
- 循环和混合: 循环创建连续动画,而混合则无缝地将两个片段合并为一个。
- 风格预设: 立即应用预定义的视觉风格,如纸艺外观,而无需无休止地调整提示。
Sora 与竞争对手的对比
目前,我还在等待稳定的访问权限。由于服务器过载,新用户根本无法生成视频。如果你看到这个错误信息,你并不孤单。
图片来自
一旦我进入,我计划将 Sora 与 Runway Gen-3 和 Kling 进行直接对比,使用相同的提示,看看哪个输出更连贯和真实。
现在,让我们尝试将 Sora 生成的视频与 Runway Gen-3 进行对比。以下是使用 Sora 生成的示例视频:
提示:一家棕熊坐在桌旁,用筷子吃三文鱼刺身。
由 Sora 生成的视频
为了使用 Runway Gen-3 生成相同的视频,我首先使用 Flux Labs AI 创建了图像,使用相同的提示。
图片来自
接下来,将生成的图像输入 Runway,生成以下 5 秒的视频。
由 Runway Gen-3 Alpha 生成的视频
从目前的情况来看,Sora 的输出感觉更有活力。熊不仅仅是坐在那里。镜头在移动,场景有一种活动的感觉。相比之下,Runway Gen-3 的版本看起来更静态,几乎像是一张稍微动画化的静止图像。
我还需要弄清楚“快速”的说法是否成立。早期的研究模型运行速度慢且成本高。Sora Turbo 应该会显著加快速度,但在 AI 术语中,“快速”可能仍然意味着等待几分钟才能生成 20 秒的片段。
随着时间的推移,速度会提高吗?很可能。
Sora 的定价
如果你想使用 Sora,它目前与特定的 ChatGPT 订阅计划绑定:
图片来自 OpenAI
ChatGPT Plus(20 美元/月)
- 你每月可以获得最多 50 个优先视频(1,000 信用点数),可以生成分辨率高达 720p 的片段,视频长度最长 5 秒。
ChatGPT Pro(200 美元/月)
- 你每月可以获得 500 个优先视频(10,000 信用点数),无限量的宽松视频,分辨率高达 1080p,视频长度最长 20 秒。你还可以同时运行最多 5 个生成任务,下载的视频没有水印。
最终感想
目前,包括我在内的许多人都还在等待稳定的 Sora 访问权限。服务器容量问题显然令人沮丧,社交媒体上到处都是无法注册或生成任何视频的用户。
除此之外,Sora 输出的早期预览看起来令人印象深刻。真实感和连贯性都很出色,想到这对创作者、电影制作人以及任何希望通过视频将想法变为现实的人来说意味着什么,令人兴奋。
但这些能力也引发了一些严重的担忧。随着视频如此逼真,我们必须承认滥用的风险:假新闻、诈骗和深度伪造。
油管 指出,当他要求 Sora 生成一个科技评论员的视频时,视频中可疑地包括了一盆绿色植物,非常类似于他视频中经常出现的植物。
这是一个奇怪的巧合,还是 OpenAI 的训练数据中包括了他的作品并复制了这一细节?很难确定,但这突显了关于这些模型如何训练以及它们可能无意中揭示的内容的不确定性。
无论如何,如果他们能够稳定访问、保持质量并培养一个负责任使用该工具的社区,Sora 可能会取代 Kling 或 Runway,成为创作者首选的 AI 视频工具。目前,我保留最终判断,直到炒作平息、服务器稳定,并且我有机会真正测试它。
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved