🎁 OpenAI Shipmas狂欢夜，第二天早上发生了什么？🎉

OpenAI 的“Shipmas”惊喜：今天的演示，明天的降级

还记得那种完美的圣诞早晨的感觉吗？今年的 OpenAI Shipmas 带来了同样的兴奋感——十二天的礼物，每一份都承诺比上一份更神奇。然而，当我们拆开每一份新公告时，却发现了一些奇怪的现象。不出所料，几天之内，大多数礼物最终都被遗忘在角落里，积满灰尘，直到新年。OpenAI 的 Shipmas 也遵循了类似的模式，但有一个不寻常的转折：不是我们失去了兴趣，而是礼物本身似乎失去了魔力，一旦聚光灯熄灭，彩带落地，它们的能力就开始减弱。从 DALL·E 的质量下降到 GPT-4 的配额缩减，这种模式显而易见——我甚至有截图可以证明。

Shipmas 之夜

None

«Shipmas 在路上。» 由 FLUX [dev] 生成。

今年，为了庆祝 ChatGPT 发布两周年（2020 年 11 月 30 日），Sam Altman 宣布 OpenAI 将连续 12 天发布新功能。

许多人称之为 Shipmas，截至今天，已经发布了 7 个新功能，预计还会有更多。到目前为止，发布的内容包括：

o1 和 ChatGPT Pro：终于发布了 o1 的完整版本，并新增了每月 200 美元的订阅层级。
OpenAI 的强化微调研究计划（仅限受邀用户）。
Sora 全面开放。
Canvas 面向所有人，包括自定义 GPT（支持 Python 运行）。
GPT 集成到 Apple Intelligence 中。
高级语音与视频功能。
ChatGPT 中的项目功能。

拆解这些发布

虽然有很多令人兴奋的东西，但直到今天，它们似乎并不新鲜。它们更像是“哦，终于来了”。这是因为其中许多功能之前已经宣布过，承诺过，但一直没有兑现。

所以，让我们简单回顾一下。

关于第一天，最让人印象深刻的是每月 200 美元的订阅层级。我得承认，我并不觉得这很贵。事实上，几个月前我取消订阅时，就向 OpenAI 提出了类似的建议：我注意到质量在下降，我假设这是因为服务成本太高，所以我建议他们提高价格，而不是降低质量。

此外，他们还发布了 o1。结果发现，他们已经在 9 月份发布了 o1-preview 和 o1-mini。对很多人来说，区别并不明显，OpenAI 的沟通也没有帮助。所以，看到一些被认为已经发布的东西再次发布，感觉很奇怪。而且，根据 o1 系统卡，一些旧模型的表现比新发布的模型更好。

还有 o1-pro，它似乎是 o1，但会执行四次提示并选择最佳结果。然而，一些实验表明，这种方法在某些场景下表现更差——最佳结果似乎并没有被很好地计算出来。

不过，第一天最好的消息是，随着每月 200 美元的订阅层级，o1 的限制被取消了。

关于第二天，嗯，技术性的东西，对吧？这似乎是一个仅限受邀合作伙伴的计划。它很像 Sora 的发布：只对少数人开放。但我们要记住一件事：12 个发布是一个很大的数字，所以有些是大动作，有些则是小礼物。

第三天：Sora。2024 年 2 月宣布，终于发布了。不过，不在欧洲。而且，人们说它并没有预期的那么好。发布时，已经有一些相当不错的替代品，有些甚至可以在本地运行。而且，即使是每月 200 美元的订阅层级，生成次数也相当有限。

第四天：Canvas。它于 2024 年 10 月 3 日发布，作为对 Claude.ai 的回应。唯一的区别似乎是现在它对所有人开放了。

第五天：ChatGPT 集成到 Apple Intelligence 中。问题是：Apple 是否因为 OpenAI 而推迟了 Apple Intelligence 的发布？

第六天：高级语音与视频功能。这是 5 月 13 日 GPT-4o 演示的一部分。他们宣布将在接下来的几周内发布，但完整的演示功能直到第六天才可用。

第七天：项目功能。这是一个不错的功能，主要集中在用户界面上，帮助准备复杂的任务。用于组织聊天的文件夹非常有用，所以对话搜索是必不可少的。然而，处理多个文件并与它们交互的部分，看起来很像 Claude.ai 的功能。不过，演示并不理想，因为 Claude.ai 可以直接预览更改，而无需下载。

降级的模式

无论 OpenAI 发布的工具多么花哨、优雅或好用，我都不指望它们在发布几个月后还能保持同样的水准。

为什么？

看看 DALL·E 3 在 ChatGPT 中的演变：

None

ChatGPT 本身也是如此。虽然这更难展示，所以我只能凭感觉说。

我最初很喜欢 GPT-4，但当 GPT-4o 推出时（更简单的模型，运行成本更低，但训练得更好），GPT-4 的配额消耗得更快。有一段时间，我甚至被限制在每天只能使用 5 次提示。

GPT-4o 虽然不错，但并没有很好地回应我的请求。它多次让我感到不舒服，特别是因为它把问题当成了请求。所以，它没有给我答案，而是把我的问题解释为一组扭曲的愿望，浪费了我的配额。

然后，当 GPT-4o-mini 推出时，GPT-4o 的配额被进一步缩减。此外，我注意到，有时尽管我选择了 GPT-4o，但实际上是 GPT-4o-mini 在回答提示。有很多研究关于使用更简单的模型处理琐碎问题，并使用不同的 LLM 来选择在每种情况下使用哪个模型，这样你可以在合理的资源消耗下得到不错的答案。然而，在这种情况下，我选择 GPT-4o 是有原因的。

此外，在某些情况下，特别是在长对话中，他们会重写我的提示，以适应之前的信息，可能是为了减少输入 token 的数量。

因此，如果我没猜错，他们在 GPT 中使用的减少账单的技术包括：

减少了使用配额。
更换了模型，尽管选择了另一个模型。
重写了我的提示。

基本上，OpenAI 在没有任何警告的情况下，降低了付费用户的质量和配额。

这就是为什么我问他们是否需要更多的钱——他们所做的所有改变都是为了减少计算时间和账单。所以，要么他们想从我的支付中为免费用户提取更多的钱，要么支付远远低于实际成本。

所以，当他们在公开场合宣布改进时，他们却在暗中降低服务质量。

历史会重演吗？

他们可以再次采取发布高质量产品，然后将其替换为更基础版本的策略。就像他们对 DALL·E 3 所做的那样。

关于 Sora，现在视频看起来很棒，但他们已经知道如何在图像生成器上降低质量。所以，很可能在接下来的几个月里，图像的质量会开始下降。而且，可能会像我一样，我以为我失去了提示的技巧。

None

Sora 在其系统卡中展示的三个质量级别。

关于 o1，系统卡已经揭示了一些细节。它们与“世界上最聪明的模型”这一说法并不一致。

当你阅读一个模型的系统卡，而竞争对手的模型被排除在外时，这可能意味着他们不想让你进行比较：

但更令人担忧的是，如果我们查看系统卡，在某些情况下，功能较弱的模型表现更好。这在前面的图表中已经可见，但还有其他更糟糕的结果。看起来他们失去了正确训练模型的能力。他们未能将能力的提升转化为性能的提升：

None

摘自 o1 系统卡。

问题是，即使现在 o1 似乎没有预期的那么好，他们还能如何降低质量？

他们确实可以降低质量。首先，他们已经应用了之前版本的所有技术。但此外，在 o1 的情况下，他们似乎有一个控制推理窗口长度的机制。这个推理窗口是 o1 家族更昂贵的原因，也是配额如此有限的原因。事实证明，如果窗口足够大，模型可以在没有我们监督的情况下探索许多选项，从而得到更好的响应。因此，窗口越短，响应的质量就越差。所以，我们可以预期这个窗口在接下来的几个月里会缩小。

None

«Shipmas 的残骸，几个月后。» 由 Flux [dev] 生成。

真正的开放 AI

但最令人失望的部分不仅是缺乏透明度，还有缺乏开放性。虽然一些替代品的可用性较差——它们没有预装在服务器上，你需要在自己的电脑上安装——但它们让你能够随时使用，没有配额或意外的质量下降。

一些完全精选的开源替代品包括：

作为 GPT-4o-mini 的替代品，你可以使用 Llama 3.1 8B。它几乎可以在任何电脑上运行，速度快，功能强大，而且完全私密。

None

作为 o1 的替代品，你可以使用 QwQ。这个模型的行为类似于 o1，并且在 o1 发布仅一个半月后推出。而且，它非常小——32B——通过适当的量化，可以在大多数消费级电脑上快速运行。

None

DALL·E 的一个很好的替代品是 Flux [dev]，或者 [schnell] 来探索更快的结果。它几乎可以在任何扩散应用中使用，比如 Draw Things。

None

«圣诞老人的玩具矿场», 由 Flux [schnell] 生成。

None

«云朵做的小狗», 由 Flux [schnell] 生成。

None

«美丽的圣诞图片», 由 Flux [schnell] 生成。

还有很多 Sora 的替代品——抱歉，我一个都没试过。但可以理解，长时间展示给人们，却不让他们接触，这已经引起了很多挫败感，令人惊讶的是，这些挫败感被引导到了开源替代品的创建上。ComfyUI 可能是最早的之一，但最近 HunyuanVideo 发布了，质量与 Sora 相当。

展望未来

我被诱惑了。他们的展示非常出色，他们逐步发布的方式让你忍不住想知道接下来会发生什么。我不知道下周会发生什么，我钦佩他们在圣诞节前几周如此努力地工作。

然而，OpenAI 之外还有很多好产品。这些产品在时间上保持一致，甚至不断改进，使用和配额透明，而且在某些情况下，它们似乎随着时间的推移而变得更好。

我希望下周，在第 12 天，他们会发布 GPT-4.5 甚至 GPT-5——真正的、无可争议的“世界上最聪明的模型”。我们可以称之为 GPT-4 的真正继任者，代表着期待已久的突破性飞跃。

感谢阅读。我通常喜欢写故事来思考我们如何理解和应用软件工程，并让我们思考我们可以改进什么。如果你喜欢这篇文章，别忘了点赞、评论和分享。__更多见解和讨论，____.

OpenAI 的“Shipmas”惊喜：今天的演示，明天的降级

Shipmas 之夜

拆解这些发布

降级的模式

历史会重演吗？

真正的开放 AI

展望未来

FluxAI 中文