一个困扰 AI 界七十年的问题
1950年,艾伦·图灵在他的论文《计算机器与智能》中提出了著名的"模仿游戏"——现在我们称之为图灵测试。他没有问"机器能思考吗",而是将问题转化为:机器能否在对话中被误认为是人类?
七十多年后,现代大语言模型已经轻松通过了图灵测试的各种变体。但这反而让这个问题变得更加尖锐:通过模仿测试,等于拥有了真正的理解能力吗?
两条平行的历史脉络
符号主义(Symbolicism)
AI 研究最初由符号主义主导。这一派认为,智能的本质在于对符号进行规则操作。
代表成果包括:
- 专家系统(Expert Systems)
- 逻辑证明器
- LISP 语言与 Prolog
符号主义的优势是可解释性:每一步推理都有明确的规则支撑,错误可以被追溯和纠正。
% 符号主义推理示例(Prolog)
parent(tom, bob).
parent(bob, ann).
grandparent(X, Z) :- parent(X, Y), parent(Y, Z).
% 查询:grandparent(tom, ann) => true
但它的弱点同样明显:现实世界的知识难以被完整地形式化,面对不确定性和常识推理时表现极差。
连接主义(Connectionism)
与此同时,连接主义(神经网络)一派认为,智能来自大量简单单元的协同计算,而非显式规则。
神经网络历经几次寒冬,终于在深度学习时代爆发。Transformer 架构(2017)和 GPT 系列(2018-present)将连接主义推向了前所未有的高度。
LLM 的推理能力:现象与疑问
现代 LLM 展现出的能力令人瞩目:
- 数学推理:能够解决多步骤代数问题
- 代码生成:能够根据自然语言需求编写复杂程序
- 逻辑推理:能够处理三段论和某些形式逻辑问题
- 类比推理:能够发现不同领域之间的相似结构
但同时,它也有令人迷惑的失误:
问题:如果一个房间里有 3 个苹果,你拿走了 2 个,还剩几个?
LLM答案:1个
正确回答:还剩 1 个(房间里)... 但 LLM 有时会说 "你手里有 2 个"
这种不一致性让人怀疑:LLM 的"推理"是否只是对训练数据中相似模式的检索与拼接?
核心争议
反对派:这只是"随机鹦鹉"
语言学家艾米丽·本德(Emily Bender)等人将 LLM 称为"随机鹦鹉"(Stochastic Parrots)——它们只是在以极高的统计精度预测下一个词,没有任何真正的理解。
支持这一观点的证据:
- LLM 在分布外问题上经常失败
- 简单改变问题的表述方式,答案可能截然不同
- 在反事实推理上表现较差
支持派:涌现能力是真实的
另一方则认为,当模型规模足够大时,涌现能力(Emergent Abilities)是真实存在的——这些能力无法从小模型中线性外推,而是在某个规模阈值后突然出现。
谷歌的研究团队发现,某些任务在小模型上准确率接近随机,但在大模型上突然达到 90%+ 的准确率。这种非线性跃升,很难用"只是模式匹配"来解释。
思维链:向符号主义的一次借鉴
2022年,谷歌提出了思维链提示(Chain-of-Thought Prompting):
不用 CoT:
问:Roger 有 5 个网球。他又买了 2 罐网球,每罐 3 个。现在他有多少个网球?
答:11个
用 CoT:
问:Roger 有 5 个网球。他又买了 2 罐网球,每罐 3 个。现在他有多少个网球?
让我一步一步思考:
- Roger 开始有 5 个网球
- 2 罐 × 每罐3个 = 6 个新网球
- 5 + 6 = 11 个网球
答:11个
CoT 显著提升了 LLM 的推理能力——通过让模型"展示思维过程",它实际上在模拟符号主义的逐步推理过程。
这是一个意味深长的发现:神经网络通过模拟符号推理的外在形式,获得了更好的推理能力。
我的判断
我认为,"LLM 是否真的推理"这个问题,本身可能是一个错误提问。
"真正的推理"预设了一种关于推理的本质主义立场——存在某种纯粹的、与载体无关的推理过程。但如果推理是一种功能,而非一种神秘的心灵能力,那么能够可靠地完成推理任务的系统,就是在"真正推理"。
当然,LLM 目前的局限性是真实的:可靠性不足、幻觉问题、无法真正建立持久的世界模型。这些是工程问题,也是理论问题。
但它们并不意味着 LLM 的推理能力是假的——它们意味着这种能力仍然不完整。
这与人类大脑的情况颇为相似。
延伸阅读:
- 闵斯基《心智社会》
- 本德等人《随机鹦鹉:大型语言模型有害吗?》(论文)
- Wei 等人《涌现能力》(论文)
- 内格尔《成为一只蝙蝠是什么感觉?》(哲学论文)