烟雾与镜子:OpenAI o1 模型背后的“魔法”
7 个月前
我周末的时光就像任何一个自尊心强的爱好者一样:试图揭开 OpenAI 最新的 o1 模型的神秘面纱。你知道的,大家都这样。朋友们在外面享受阳光,接触大自然,但谁还需要维生素 D 呢,反正我有新模型可以研究!
在纸面上,o1 模型 看起来 像是城里新的魔法师,拥有让人们窃窃私语的能力,似乎与一篇旧的 OpenAI 论文中的某个秘密“Q* 过程”有关。听起来很有趣,对吧?
我们肯定能搞明白这一点,翻阅旧的逻辑问题和物理问题的数据库——眼睛紧盯屏幕,手指在键盘上飞舞——很快就显而易见了……魔术师的帽子不过是……一顶帽子。
大揭示:这只是穿着华丽外衣的 GPT-4
经过数小时的探索和实验,甚至连最狂热的书呆子也会觉得无聊,终于出现了一个模式。o1 模型并不是某种突破性的进展。不是的。它只是穿着新帽子的 GPT-4,希望我们不会注意到。
<叹气> 我把 OpenAI 的 Kool-aid 倒回瓶子里。(有时候我觉得只喝 Kool-aid 也不错,但那可不是我。)
我强烈怀疑:o1 模型在很大程度上依赖于链式思维 (CoT) 框架。听起来很高大上,但本质上是一种方法,模型将任务分解为一系列步骤,标题如“思考”和“分析”。
这就像我写待办事项清单时,特意加上“写待办事项清单”,这样我可以立刻划掉一项。感觉很有成就感,但我真的完成了更多的事情吗?值得商榷。
链式思维与强化学习:快速绕道
现在,有些人可能会把这个 CoT 的事和强化学习或奖励算法搞混。让我们澄清一下。
强化学习 就像训练一只狗。你在它做对的时候给它零食。随着时间的推移,它学会了去捡报纸。
链式思维 更像是我在尝试解决问题时自言自语。“好吧,首先我检查路由器,然后重启调制解调器……”这是一个逐步的过程,不一定涉及任何奖励或零食 (不幸的是)。
实验:把苹果和……稍微改良的苹果进行比较
回到我的周末探险。我比较了 o1 模型与 GPT-4o 和 GPT-4o mini 的模型概述。剧透:它们几乎一模一样。相同的模型描述,相同的创造者,相同的知识截止日期。
甚至它们的行为也惊人地相似。它们犯了同样的错误,有着相同的怪癖,可能还分享了相同的最爱颜色。所有迹象都表明,o1 只是 GPT-4o 的一个微调版本,而不是某种在 OpenAI 秘密实验室中酿造的革命性新模型。
CoT 框架的局限性:或者说为什么增加更多步骤并不总是解决方案
这就有趣了/略显沮丧,取决于你的观点。虽然 CoT 框架在使模型的推理更加透明方面很有帮助,但并不一定让它更聪明。这就像我在解决任何难题时大声解释我的思维过程……我并不是说这不重要,它有助于让你保持专注,帮助制定完成任何目标的完整计划……制定执行计划是很棒的,对这种方法没有任何贬低。但它并不更聪明,也不更合逻辑。
CoT 增加了计算复杂性,可能会消耗大量资源,有时会导致重复或无关的推理步骤。
我们能用其他技术实现同样的效果吗?当然可以!
CoT 框架的所谓优势并不是它独有的。通过一些巧妙的提示工程、微调,或者使用其他先进模型如 GPT-4o,我们可以复制甚至超越这些好处。这就像意识到你不需要一个华丽的咖啡机就能做出好咖啡;有时候,一个简单的法式压滤壶就能解决问题。因为 o1 模型是自己创建执行计划,这为我们节省了剖析问题和制定自己执行计划的工作,这在一般情况下可能是件好事。然而,一旦你开始将 LLM 应用于特定问题领域,保持对执行计划的控制可能是让你的应用程序特别的秘密所在。这就像提示工程,但更进一步,现在是一个提示链。
智能的幻觉
最终,o1 模型所谓的“魔法”更多的是烟雾和镜子,而不是巫术。它是一个微调的 GPT-4,穿着新衣,希望我们会被它闪亮的链式思维配件所吸引。但在表面之下,它仍然是那个老旧的模型,拥有相同的局限性和缺乏真正推理的能力。
皇帝的新衣不过是——在同一个老皇帝身上穿上新衣。
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved