🎁 OpenAI Shipmas狂欢夜,第二天早上发生了什么?🎉
2 个月前
OpenAI 的“Shipmas”惊喜:今天的演示,明天的降级
还记得那种完美的圣诞早晨的感觉吗?今年的 OpenAI Shipmas 带来了同样的兴奋感——十二天的礼物,每一份都承诺比上一份更神奇。然而,当我们拆开每一份新公告时,却发现了一些奇怪的现象。不出所料,几天之内,大多数礼物最终都被遗忘在角落里,积满灰尘,直到新年。OpenAI 的 Shipmas 也遵循了类似的模式,但有一个不寻常的转折:不是我们失去了兴趣,而是礼物本身似乎失去了魔力,一旦聚光灯熄灭,彩带落地,它们的能力就开始减弱。从 DALL·E 的质量下降到 GPT-4 的配额缩减,这种模式显而易见——我甚至有截图可以证明。
Shipmas 之夜
«Shipmas 在路上。» 由 FLUX [dev] 生成。
今年,为了庆祝 ChatGPT 发布两周年(2020 年 11 月 30 日),Sam Altman 宣布 OpenAI 将连续 12 天发布新功能。
许多人称之为 Shipmas,截至今天,已经发布了 7 个新功能,预计还会有更多。到目前为止,发布的内容包括:
- o1 和 ChatGPT Pro:终于发布了 o1 的完整版本,并新增了每月 200 美元的订阅层级。
- OpenAI 的强化微调研究计划(仅限受邀用户)。
- Sora 全面开放。
- Canvas 面向所有人,包括自定义 GPT(支持 Python 运行)。
- GPT 集成到 Apple Intelligence 中。
- 高级语音与视频功能。
- ChatGPT 中的项目功能。
拆解这些发布
虽然有很多令人兴奋的东西,但直到今天,它们似乎并不新鲜。它们更像是“哦,终于来了”。这是因为其中许多功能之前已经宣布过,承诺过,但一直没有兑现。
所以,让我们简单回顾一下。
关于第一天,最让人印象深刻的是每月 200 美元的订阅层级。我得承认,我并不觉得这很贵。事实上,几个月前我取消订阅时,就向 OpenAI 提出了类似的建议:我注意到质量在下降,我假设这是因为服务成本太高,所以我建议他们提高价格,而不是降低质量。
此外,他们还发布了 o1。结果发现,他们已经在 9 月份发布了 o1-preview 和 o1-mini。对很多人来说,区别并不明显,OpenAI 的沟通也没有帮助。所以,看到一些被认为已经发布的东西再次发布,感觉很奇怪。而且,根据 o1 系统卡,一些旧模型的表现比新发布的模型更好。
还有 o1-pro,它似乎是 o1,但会执行四次提示并选择最佳结果。然而,一些实验表明,这种方法在某些场景下表现更差——最佳结果似乎并没有被很好地计算出来。
不过,第一天最好的消息是,随着每月 200 美元的订阅层级,o1 的限制被取消了。
关于第二天,嗯,技术性的东西,对吧?这似乎是一个仅限受邀合作伙伴的计划。它很像 Sora 的发布:只对少数人开放。但我们要记住一件事:12 个发布是一个很大的数字,所以有些是大动作,有些则是小礼物。
第三天:Sora。2024 年 2 月宣布,终于发布了。不过,不在欧洲。而且,人们说它并没有预期的那么好。发布时,已经有一些相当不错的替代品,有些甚至可以在本地运行。而且,即使是每月 200 美元的订阅层级,生成次数也相当有限。
第四天:Canvas。它于 2024 年 10 月 3 日发布,作为对 Claude.ai 的回应。唯一的区别似乎是现在它对所有人开放了。
第五天:ChatGPT 集成到 Apple Intelligence 中。问题是:Apple 是否因为 OpenAI 而推迟了 Apple Intelligence 的发布?
第六天:高级语音与视频功能。这是 5 月 13 日 GPT-4o 演示的一部分。他们宣布将在接下来的几周内发布,但完整的演示功能直到第六天才可用。
第七天:项目功能。这是一个不错的功能,主要集中在用户界面上,帮助准备复杂的任务。用于组织聊天的文件夹非常有用,所以对话搜索是必不可少的。然而,处理多个文件并与它们交互的部分,看起来很像 Claude.ai 的功能。不过,演示并不理想,因为 Claude.ai 可以直接预览更改,而无需下载。
降级的模式
无论 OpenAI 发布的工具多么花哨、优雅或好用,我都不指望它们在发布几个月后还能保持同样的水准。
为什么?
看看 DALL·E 3 在 ChatGPT 中的演变:
ChatGPT 本身也是如此。虽然这更难展示,所以我只能凭感觉说。
我最初很喜欢 GPT-4,但当 GPT-4o 推出时(更简单的模型,运行成本更低,但训练得更好),GPT-4 的配额消耗得更快。有一段时间,我甚至被限制在每天只能使用 5 次提示。
GPT-4o 虽然不错,但并没有很好地回应我的请求。它多次让我感到不舒服,特别是因为它把问题当成了请求。所以,它没有给我答案,而是把我的问题解释为一组扭曲的愿望,浪费了我的配额。
然后,当 GPT-4o-mini 推出时,GPT-4o 的配额被进一步缩减。此外,我注意到,有时尽管我选择了 GPT-4o,但实际上是 GPT-4o-mini 在回答提示。有很多研究关于使用更简单的模型处理琐碎问题,并使用不同的 LLM 来选择在每种情况下使用哪个模型,这样你可以在合理的资源消耗下得到不错的答案。然而,在这种情况下,我选择 GPT-4o 是有原因的。
此外,在某些情况下,特别是在长对话中,他们会重写我的提示,以适应之前的信息,可能是为了减少输入 token 的数量。
因此,如果我没猜错,他们在 GPT 中使用的减少账单的技术包括:
- 减少了使用配额。
- 更换了模型,尽管选择了另一个模型。
- 重写了我的提示。
基本上,OpenAI 在没有任何警告的情况下,降低了付费用户的质量和配额。
这就是为什么我问他们是否需要更多的钱——他们所做的所有改变都是为了减少计算时间和账单。所以,要么他们想从我的支付中为免费用户提取更多的钱,要么支付远远低于实际成本。
所以,当他们在公开场合宣布改进时,他们却在暗中降低服务质量。
历史会重演吗?
他们可以再次采取发布高质量产品,然后将其替换为更基础版本的策略。就像他们对 DALL·E 3 所做的那样。
关于 Sora,现在视频看起来很棒,但他们已经知道如何在图像生成器上降低质量。所以,很可能在接下来的几个月里,图像的质量会开始下降。而且,可能会像我一样,我以为我失去了提示的技巧。
Sora 在其系统卡中展示的三个质量级别。
关于 o1,系统卡已经揭示了一些细节。它们与“世界上最聪明的模型”这一说法并不一致。
当你阅读一个模型的系统卡,而竞争对手的模型被排除在外时,这可能意味着他们不想让你进行比较:
但更令人担忧的是,如果我们查看系统卡,在某些情况下,功能较弱的模型表现更好。这在前面的图表中已经可见,但还有其他更糟糕的结果。看起来他们失去了正确训练模型的能力。他们未能将能力的提升转化为性能的提升:
摘自 o1 系统卡。
问题是,即使现在 o1 似乎没有预期的那么好,他们还能如何降低质量?
他们确实可以降低质量。首先,他们已经应用了之前版本的所有技术。但此外,在 o1 的情况下,他们似乎有一个控制推理窗口长度的机制。这个推理窗口是 o1 家族更昂贵的原因,也是配额如此有限的原因。事实证明,如果窗口足够大,模型可以在没有我们监督的情况下探索许多选项,从而得到更好的响应。因此,窗口越短,响应的质量就越差。所以,我们可以预期这个窗口在接下来的几个月里会缩小。
«Shipmas 的残骸,几个月后。» 由 Flux [dev] 生成。
真正的开放 AI
但最令人失望的部分不仅是缺乏透明度,还有缺乏开放性。虽然一些替代品的可用性较差——它们没有预装在服务器上,你需要在自己的电脑上安装——但它们让你能够随时使用,没有配额或意外的质量下降。
一些完全精选的开源替代品包括:
作为 GPT-4o-mini 的替代品,你可以使用 Llama 3.1 8B。它几乎可以在任何电脑上运行,速度快,功能强大,而且完全私密。
作为 o1 的替代品,你可以使用 QwQ。这个模型的行为类似于 o1,并且在 o1 发布仅一个半月后推出。而且,它非常小——32B——通过适当的量化,可以在大多数消费级电脑上快速运行。
DALL·E 的一个很好的替代品是 Flux [dev],或者 [schnell] 来探索更快的结果。它几乎可以在任何扩散应用中使用,比如 Draw Things。
«圣诞老人的玩具矿场», 由 Flux [schnell] 生成。
«云朵做的小狗», 由 Flux [schnell] 生成。
«美丽的圣诞图片», 由 Flux [schnell] 生成。
还有很多 Sora 的替代品——抱歉,我一个都没试过。但可以理解,长时间展示给人们,却不让他们接触,这已经引起了很多挫败感,令人惊讶的是,这些挫败感被引导到了开源替代品的创建上。ComfyUI 可能是最早的之一,但最近 HunyuanVideo 发布了,质量与 Sora 相当。
展望未来
我被诱惑了。他们的展示非常出色,他们逐步发布的方式让你忍不住想知道接下来会发生什么。我不知道下周会发生什么,我钦佩他们在圣诞节前几周如此努力地工作。
然而,OpenAI 之外还有很多好产品。这些产品在时间上保持一致,甚至不断改进,使用和配额透明,而且在某些情况下,它们似乎随着时间的推移而变得更好。
我希望下周,在第 12 天,他们会发布 GPT-4.5 甚至 GPT-5——真正的、无可争议的“世界上最聪明的模型”。我们可以称之为 GPT-4 的真正继任者,代表着期待已久的突破性飞跃。
感谢阅读。我通常喜欢写故事来思考我们如何理解和应用软件工程,并让我们思考我们可以改进什么。如果你喜欢这篇文章,别忘了点赞、评论和分享。__更多见解和讨论,____.
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved