News Hacker|极客洞察

42 1 天前 medium.com
🤨Stochastic Parrots之争:LLM是随机鹦鹉还是世界模型?
既然只是标签,怎么又能挡住能力暴涨?

🎯 讨论背景

这场讨论围绕 2021 年的“Stochastic Parrots”论文及其后续辩护展开,原论文用“stochastic parrot”来批评大语言模型(LLM)可能只是对训练语料的统计复述,而不是有意义地理解世界。评论区争论的重点是,这个说法到底是对模型能力的经验判断,还是一种描述性隐喻;不少人认为后来 LLM 在数学推理、代码和证明搜索上的表现已经超出原先设想。讨论里还提到 RLVR(reinforcement learning with verifiable rewards,一种依赖可验证反馈的强化学习训练方式)、Lean(形式化证明助手)和 ACL2(自动定理证明系统)等工具,因为它们被拿来说明“AI 是否真的在推理”。还有评论把争议延伸到 AI for Math Fund、Renaissance Philanthropies(资助 AI/数学项目的机构)等资金和宣传问题,反映出这场争论已不只是技术判断,也涉及话语权和学术立场。

📌 讨论焦点

“随机鹦鹉”是否在建模

一部分评论围绕“model”这个词本身争论不休。有人认为 LLM 本质上是在对训练分布做概率采样,所以当然是在建模,只是建模的对象不是“意义”而是文本与其统计结构。另一方则强调,如果把 model 理解为对世界、说话意图或读者心理的表征,LLM 只是拼接 token,并没有真正的理解或心智模型。争论的核心不是 LLM 会不会输出像样文本,而是“model”到底该怎么定义。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

论文是在澄清,不是经验反驳

不少评论把这篇文章理解为对旧术语的澄清:‘stochastic parrot’ 更像一个描述性标签,用来说明语言模型如何运作,而不是一个可直接证伪的经验假说。按这种读法,作者是在纠正外界把隐喻当成精确科学结论的误用。质疑者则认为,如果它完全不包含经验含义,就很难帮助人们判断模型的可靠性、局限性或实际使用边界。

[来源1] [来源2] [来源3] [来源4] [来源5]

LLM能力暴涨后旧比喻是否失效

另一组评论认为,过去几年 LLM 的进步已经让“随机鹦鹉”显得太窄,尤其是新训练方法如 RLVR 让模型不只是靠大规模语料的旧式拟合。有人举出数学家 Terence Tao、Timothy Gowers 等对 LLM 数学推理的正面评价,认为这与早期对模型能力的预期明显不同。批评者反击说,作者没有正面承认自己对技术进展感到意外,而是在继续防守原有立场。

[来源1] [来源2] [来源3] [来源4]

形式化数学中的 LLM

评论把焦点放到数学证明上,指出自动定理证明并不是新鲜事,ACL2 这类系统早就存在。LLM 的新用途更像是一个 learned proposal mechanism:先给出 lemma、tactics 和证明草案,再交给 Lean 之类的 formal checker 验证。支持者认为这已经足够产生新证明或辅助证明,而反对者则怀疑许多成果只是高算力、随机重启式的 hack,或者只是把旧搜索包装成 demo。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

对AI基金与宣传的怀疑

还有一条支线集中在 AI for Math Fund、Renaissance Philanthropies(一个资助 AI/数学项目的机构)等机构上,怀疑它们的资金来源、算力分配和宣传方式是否透明。批评者认为这些项目偏好“agentic science”之类的叙事,却没有清楚公布 prior art、计算资源和算法细节。反驳者则指出,公开报告里能查到捐助和项目分配,而且把支持者直接打成“shill”并不能替代证据。

[来源1] [来源2] [来源3]

文化层面的 AI 质疑与乐观

有评论把整篇文章视为对 AI hype 的一次漂亮反击,强调它在术语和修辞上对抗 Brandolini's Law(谣言比辟谣更易传播)式的信息失衡。也有人说当下 LLM 已经进入 Westworld/Blade Runner 式的 uncanny valley,很难再用传统“会/不会思考”的框架概括。最积极的声音则是,看到语言学家继续出来维护概念边界,本身就让人对人类思考还抱有一点希望。

[来源1] [来源2] [来源3]

📚 术语解释

LLM: Large Language Model,大语言模型,指通过海量文本训练、生成和理解自然语言的模型。

Stochastic Parrots: “随机鹦鹉”隐喻,指语言模型主要是在概率上拼接和复述训练语料,而非真正理解意义。

RLVR: Reinforcement Learning with Verifiable Rewards,一种利用可验证结果作为奖励信号的强化学习训练方式。

Lean: 一个形式化证明助手/定理证明器,用于机器可检查的数学证明。

ACL2: 一种自动定理证明系统和编程语言,常用于形式化验证与证明搜索。