News Hacker|极客洞察

31 17 小时前 worldgov.org
🤔亿参数理论(Billion-Parameter Theories):大模型、可解释性与科学理解之争
真要把理解世界的活儿都交给亿参黑箱吗?

🎯 讨论背景

文章探讨把庞大参数化模型(billion-parameter theories)当作科学理论的可行性与代价——即用巨型 neural networks 代替紧凑方程来捕捉跨尺度复杂性。评论引用了具体先例与对比:Waymo 的 "World Model"(用于自动驾驶场景仿真的模型)、AOGCMs(Atmosphere-Ocean General Circulation Models,大气-海洋耦合环流模型)与简化两层大气模型、以及 Santa Fe Institute(复杂系统研究机构)的贡献。讨论基于的前提包括对“reach”(理论覆盖范围)的重视、对 epistemological 完美的期待,以及对训练数据如何把社会现象(如贫困)的多层次因果结构操作化的担忧。历史性的学科争论也被引用(比如 Chomsky 与 connectionist models 的论战),表明不同学科传统影响人们如何评判大模型作为“理论”的合法性。

📌 讨论焦点

支持用大参数模型处理复杂性

部分评论认为复杂系统的“reach”可以由大参数的 neural networks 处理,换言之,billion-parameter theories 能把多层次因果与不确定边界纳入模型。举例提到 Waymo 的 "World Model"(基于真实世界数据训练的自动驾驶仿真)能生成训练集中未见的情景(例如“大象闯街”)并用这些情景反哺训练,显示大模型能扩展到新颖场景。技术上有人建议通过坐标变换如 PCA(Principal Component Analysis)找出主导向量,或通过 distillation(蒸馏)把海量参数投射为少数可解释概念,从而提取出有用的表征。结论是:大模型提供了一条可行路径来处理边界模糊与高维交互,但需要可靠的解释性工具和概念抽取才能把这些“理论”变为可理解的知识。

[来源1] [来源2] [来源3]

主张小而简洁的理论通常足够

另一类评论反对把复杂问题完全交给黑箱巨模型,认为多数现象可由小而清晰的理论捕捉其一阶行为。以气候为例,评论指出尽管存在 AOGCMs(Atmosphere-Ocean General Circulation Models)这类全面数值模型,但一个两层大气并包含 CO2 与水汽反馈的简化模型就能给出相似的一阶预测,从而更有助于理解因果机制。还有人用 Newton 与 Einstein 的对比强调:简单近似常常足以用于理解与预测,且 approximations != truth,但这并不降低简洁模型的价值。该立场认为大模型适合精确预测,但并非形成解释性理论的唯一或最佳路径。

[来源1] [来源2]

担忧放弃人类理解与产生新型神秘主义

有评论警告把大型黑箱当作最终“知识”会催生一种新型神秘主义,导致人们放弃对复杂系统的实证理解和质问。具体担忧包括对“只要交给计算机就能知道真相”的反感、训练数据的选择会把偏差烙印进模型(以贫困为例涉及经济、心理、生态、生理、历史与政治等多层原因),以及因过度追求“正确解”而草率否定某些主题。另一条批评直言现代 AI 有点像 alchemy(炼金术),并强调情感与人类心智不会因此改变,从而呼吁谨慎与解释性优先。基于这些担忧,评论者主张在使用大模型时必须同时强调数据的操作化、多层因果分析与可解释性。

[来源1] [来源2] [来源3] [来源4]

复杂系统研究的历史贡献被误读

有评论为 Santa Fe Institute(复杂系统研究机构)的工作辩护,指出该机构并非失败,而是展示了在某类问题上只能得到不变量与尺度律這类结论——证明“不可能”的边界本身就是科学成果。评论进一步指出 Santa Fe 的方法与发现已被用于现代基因网络和生物建模,说明其对实证科学的实际影响。因此,将复杂系统研究一概斥为无用是对该学派贡献与方法论的误读,忽视了“证明什么不可能”与“提出可行模型”之间的区别。

[来源1]

语言学中的连接主义 vs. 生成语法旧争论被引用

讨论还复现了语言学领域的历史论争:connectionist models(连接主义模型/神经网络)与 Chomsky(Noam Chomsky)的语言天赋论之间的对立。评论提到历史细节(例如 Jay McClelland 对 Chomsky 的讽刺轶事)来说明连接主义学派长期对生成语法提出反击,并指出把当代神经网络简单视为 Chomsky 的继承是错误的比喻。同时也有人不理解为何语言天赋论会引发激烈反应,显示这一学术争论仍然影响人们评估“黑箱理论”的合法性与解释力。

[来源1] [来源2] [来源3]

📚 术语解释

亿参数理论(billion-parameter theories): 将亿级或更多参数的巨型 neural networks 当作“理论”来解释或预测复杂现象,而非用紧凑可读的解析式或方程;强调以高维参数化捕捉跨尺度行为。

reach: 理论的 'reach'(覆盖范围/可推广性),指一个理论能解释或预测多少不同现象与尺度,是讨论小理论与大模型谁能更好“涵盖”问题时的核心概念。

AOGCMs: AOGCMs(Atmosphere-Ocean General Circulation Models,大气-海洋耦合环流模型),气候科学中用于尽可能完整模拟大气与海洋耦合过程的数值模型,常被用作对比简化模型的实例。

PCA: PCA(Principal Component Analysis,主成分分析),一种线性降维/坐标变换方法,被建议用于在亿参模型中识别主导向量,从而把高维行为投影为少数可解释成分。

connectionist models: connectionist models(连接主义模型),以神经网络为代表的计算范式,与 Chomsky 的生成语法/语言天赋论在解释语言与心智机制上存在长期争论。