ChatGPT 不能思考!—— 新的震惊发现
6 个月前
苹果刚刚发布了一篇非常有趣的论文,显示像 ChatGPT 这样的语言模型并不能进行推理。
他们的研究方法相当有趣。
大型语言模型(LLMs)在通过基本数学测试(如 GSM (小学数学) 测试)方面越来越出色。
但苹果刚刚表明,这些 AI 实际上并没有在“思考”。
相反,LLMs 基本上只是 模式匹配。
它们就像那些不聪明但被迫记住很多东西的学生。
老师们可能一开始会认为他们很聪明,因为他们知道很多,但实际上,他们只是重复自己学到的内容。
如果你没有付费的 Medium 账户,可以在这里免费阅读。
我记得在学校时,有时数学老师会给我们上一年的测试来练习。
但他们总是说在真正的测试中会“更改数字以保护无辜者”。
想象一下,如果老师每年都给出完全相同的数学测试。
那么学生们只需记住前一年的答案,就能轻松获得 100% 的分数。
显然,如果一个学生只是记住所有答案,这并不意味着他们在数学上很优秀。
👉 注册我们的免费 5 天电子邮件课程,在 AI 时代快速成长 🚀 并赚取💲
有趣的是,苹果展示了 AI 现在基本上就是在做这样的事情。
想象这个简单的数学问题。
鲍勃有 5 个苹果,萨拉有 8 个苹果。他们一共有多少个苹果?
好吧,任何像 ChatGPT 这样的 LLM 都可以轻松回答 8 个苹果。
但如果我换了名字和水果呢?
史蒂夫有 6 个桃子,辛迪有 9 个桃子。他们一共有多少个桃子?
这个问题的难度与前一个相同,但苹果表明,改变人名和水果的名称使得 AI 在这些问题上的表现更差。
注意:这个问题对 ChatGPT 来说太简单了,但我只是用一个简单的例子来让你理解这个观点。
苹果还做的另一件事是向问题中添加额外且不必要的信息。
例如,他们现在会问 ChatGPT:
史蒂夫有 6 个桃子,辛迪有 9 个桃子。一半的桃子是小的,一半的桃子是大的。他们一共有多少个桃子?
这句话“一半的桃子是小的,一半的桃子是大的。”并没有为问题提供任何有用的信息。
桃子的大小有什么关系呢?
苹果表明,添加这种类型的信息使得 LLM 的表现远不如之前。
AI 被这些额外的信息搞糊涂了。
这正是会让一个只会记忆作业而不理解的学生感到困惑的事情。
问题是,LLMs 能记住的东西远比任何学生能记住的多得多。
它们很容易让我们人类觉得它们在思考。
苹果证明了它们并没有在思考,这本身就很有趣。
然而,如果它们不能“思考”,这可能并不重要。
它们是否有可能在模式匹配方面变得如此出色,以至于在所有方面都比人类“更聪明”?
也许吧。
例如,AI 可以在国际象棋和围棋中击败每一个人类。AI 是否在“思考”的方式上与我们不同并不重要。
AI 仍然比我们更优秀。
或者,这种缺乏思考会限制它们的能力上限吗?
我们是否需要另一个 AI 突破才能让 AI 真正“思考”?
👉 在评论中告诉我你的想法!👈
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved