OpenAI Sora翻车了?网友:就这?


4 个月前

经过漫长的等待,OpenAI 终于发布了他们的终极文本-视频模型 Sora。我还记得,当 OpenAI 宣布 Sora 时,世界首次接触到了文本-视频技术,这引起了所有人的关注。但现在,当它正式发布时,

AI 视频生成已经不再是一个遥远的梦想,已经有多个模型发布,其中一些甚至是开源的。

然而,从 Sora 的发布方式来看,我感到有些失望,我觉得 OpenAI 似乎在试图榨取其声誉。

订阅 datasciencepocket 的 Gumroad 页面,致力于向每个人教授 AI 知识 !gumroad.com

以下是我感到失望的几个原因:

又是付费的!

OpenAI 的 Sora 似乎专为付费用户设计。与其名字中的“开放”精神相反,OpenAI 近年来已经逐渐远离了开源创新。现在的重点似乎是将技术商业化,大多数新功能和进展都被锁定在高级订阅之后。虽然这种商业模式确保了持续的发展,但也让许多人怀疑 OpenAI 的核心理念是否已经从开放合作转向了封闭创新。

没有公布性能指标

OpenAI 巧妙地避免了分享其最新工具的任何性能数据。这使得很难将其与竞争对手进行比较,比如开源的 Hunyuan-Video 或闭源的 Luma 或 Gen3 Alpha。通过不透露这些细节,OpenAI 让人们对其产品的表现充满猜测。

生成视频中的异常

OpenAI 的 Sora 生成的图像质量并不总是完美的。 我看到一些技术评论者分享的例子,其中一些细节看起来有点不对劲。例如,手指可能看起来很奇怪,或者图像中的物体可能违背了基本的物理规律,比如阴影与光源不匹配,或者物体不现实地漂浮。虽然整体技术令人印象深刻,但在某些时刻,它并没有完全捕捉到自然或逻辑细节。

没有模型细节/架构

OpenAI 团队选择不透露其最新系统的底层模型架构或使用的数据。 甚至没有提供关于模型如何设计、训练或优化的表面解释。这种缺乏透明度的做法让社区处于黑暗中,无法理解技术的内部工作原理或评估其优势和局限性。

对于开发者、研究人员和爱好者来说,这种保密性使得更难信任模型的能力,与其他替代方案进行比较,或在其基础上进行创新。

有限的定制化

用户对微调或定制模型以适应特定需求的控制很少,这使得它在处理小众或高度专业化的任务时显得不够灵活。

依赖云基础设施

Sora 可能完全在云平台上运行,这可能会引发对数据安全、延迟和可用性的担忧,尤其是对于网络连接不稳定的用户。此外,目前还没有 Sora 的 API。

未知的偏见和数据来源

由于缺乏对训练数据的透明度,用户无法评估数据集中的偏见如何影响输出。这对于那些将 Sora 用于敏感应用(如医疗或教育)的人来说可能是一个问题。如果没有关于 Sora 如何确保道德使用或减轻错误信息、有害内容或滥用的风险的见解,用户可能会犹豫是否将其用于负责任的应用。

网站流量处理不佳

None

团队在发布后几小时内停止了新账户的创建。无论原因是什么,我认为本可以以更好的方式处理这个问题。

不过,世界并没有因此终结,因为我觉得现在有很多开源的文本-视频模型,有些甚至比 Sora 更好,可以在本地系统上运行。

最佳 OpenAI Sora 免费替代品

Hunyuan-Video

目前最好的文本-视频模型,完全开源。从性能指标到权重再到 ComfyUI 版本,所有内容都可以在互联网上找到。

LTX

另一个开源模型,LTX-Video 是一个基于 DiT 的模型,用于实时高质量视频生成。它生成 24 FPS 的视频,分辨率为 768x512,支持文本到视频和图像+文本到视频,并在多样化的视频数据集上训练,以产生逼真的输出。权重可在 HuggingFace 上找到。

Mochi-1

Genmo 的 Mochi-1 是另一个优秀的文本-视频模型,资源消耗相对较少,也可在 HuggingFace 上找到。

除此之外,你还可以尝试完全开源的 CogVideoX 和 Pyramid-Flow。

总之,虽然 OpenAI 的 Sora 再次引起了人们对文本到视频技术的关注,但其执行方式却让人感到失望。缺乏透明度、质量不一致和访问受限等问题,使其更像是一个错失的机会,而非突破性的发布。然而,像 Hunyuan-Video、LTX-Video 和 Mochi-1 这样的开源替代方案确保了这一领域的创新仍然对所有人开放。对于那些对 Sora 感到失望的人来说,这些替代方案提供了可行且有前景的前进道路。

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved