加载失败
本文基于对 OpenAI 章程中“若有更安全或更有价值的项目接近 AGI 我们将停止竞争并提供协助”这类条款的解读提出质疑,引发读者围绕“AGI 是否已近”“章程能否约束商业与国防合作”“应如何衡量领先者”等讨论。评论中反复提到 LLM(Large Language Models)的技术局限(如 next-token prediction 与 context window)与对 Turing test 的不同理解;同时也触及与政府/军方合同、供应链风险以及员工因道德理由辞职的现实案例。部分讨论还质疑以 arena.ai / Chatbot Arena 这类排行榜作为 AGI 指标的可信度,并提醒公司章程在面对 cap table 与资本压力时可能形同虚设。
大量评论认为现有 LLM 并非 AGI,核心理由包括缺乏实时在线学习与深层持久记忆、受限的 context window(上下文窗口)以及它们本质上是基于 next-token prediction 的统计预测器而非具备世界模型的自主学习体。评论中给出具体例子:用“贴便签/二次转述”的类比说明模型只能把训练信息碎片化再组合,无法跨会话记住规则;在需要内省或未显式出现在上下文的信息的游戏(如 mastermind)中会出现自相矛盾的回应;并且模型容易执行上下文中恶意指令(prompt injection)或误删文件等危险操作。结论是要实现真正的 AGI,需引入在线 RL 或持续重训练与根本不同的架构,而非仅靠放大当前范式的规模和上下文。
评论指出 AGI 的定义非常模糊,Turing test 常被大众误读,而“与人类匹敌”的标准又难以统一(平均水平、初级或顶级专家均可成为争点)。因此有人倾向于使用 ASI(Artificial Superintelligence)或基于合同/商业条款的可测量指标来替代难以量化的 AGI 宣称,同时警告公司可能会在市场与投资压力下放宽定义以便营销。很多人对用 arena.ai / Chatbot Arena 这类排行榜来断定“谁接近 AGI”表示怀疑,认为榜单易被投票趋势与运营方影响。研究者对时间线也分歧明显,从数年到几十年不等,说明定义与测量本身就是争议点。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
很多评论把 OpenAI 的章程(包括所谓的 self-sacrifice clause)视为象征性宣言,认为在经济激励与股权结构面前这些书面承诺难以制约实际行为。批评者列举了商业化推进、与国防合作的事实以及章程可能被下架或修改的可能性,认为早期“理想化”话语更多是获取信任与资金的营销工具而非长期约束。还有观点强调 cap table(股权结构)和投资者回报率才是真正驱动决策的力量,寄希望于公司在触及重大利益时自动放弃竞争是不现实的。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
讨论大量围绕公司与政府/军方的关系,提到有人因反对用于致命自主系统而辞职,强调技术一旦被赋能用于杀伤性或大规模监控就会带来不可逆的伦理问题。评论中有对政府拒绝私企在采购中拥有否决权的质疑,也有人讨论把模型部署在 gov cloud(政府云)与厂商在监控与审计上存在的技术与契约漏洞。另有观点指出,不同国家(例如中国)的法律会改变厂商能否拒绝协助的现实,而国防需求还可能导致国家化或强制采购,整个生态的政治与伦理风险难以被简单的公司声明约束。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
多条评论警告不要把公开榜单当作判断谁“领先”或接近 AGI 的确定证据,理由包括投票与基准容易被操纵、普通评审者未必能评判专业正确性以及大厂可通过活动影响排名。实际使用场景中不同模型在不同任务上表现差异很大:有人举例 GPT-5.4 与 Opus 4.6 在代码生成、重构与可读性上的具体差异,说明排行榜排名并不等同于多维能力的绝对优劣。另有评论提到前沿团队可能运行内部规模更大、不可见的自动化研究系统(如 autoresearch),这些并不在公开榜单中体现,从而扭曲公众对进展速度的判断。
AGI: AGI(Artificial General Intelligence):能够在几乎所有认知任务上达到或超越人类水平的概念,讨论中争议点在于“匹配人类”的度量标准、是否需要在线学习/长期记忆以及如何可验证。
ASI: ASI(Artificial Superintelligence):在所有相关任务上显著优于人类的智能体,评论者提到 ASI 在定义上比 AGI 更容易表述为“超越最佳人类”的可测目标。
LLM: LLM(Large Language Model):以大规模语言数据训练、通过 next-token prediction 生成文本的模型,评论中讨论其架构限制、上下文窗口与记忆能力不足。
Turing test: Turing test(图灵测试):一种检验机器是否能在对话中让人分不清其为机器的传统思想实验,评论指出现实中多被误读为“是否智能”而非原意的哲学判断。
next-token prediction: next-token prediction:当前主流 LLM 的训练目标——预测下一个词元,这一机制被评论者用来解释模型为何表现为统计式生成而非具备内在世界模型或自我认知。
context window: context window(上下文窗口):模型在单次推理中能“看到”的输入长度限制,评论用‘贴便签’类比说明这带来的跨会话记忆与长期学习缺陷。
self-sacrifice clause: self-sacrifice clause(章程中的自我退出条款):OpenAI 章程中关于在遇到更安全/更有价值的竞争方时停止竞争并提供协助的承诺,评论讨论其可执行性与法律/商业约束力。