加载失败
Yann LeCun以约10亿美元资金成立AMI(Advanced Machine Intelligence Labs),公开表态要构建“理解物理世界”的AI,主张以world models 与 JEPA 类自监督表征替代或补足纯文本驱动的LLM路线。HN 社区围绕这一主张展开激烈争论,核心分歧在于“文本/多模态+RL能否替代‘物理世界建模’”与“物理世界建模在数据、表示与计算上是否可行”。讨论同时穿插工程与商业层面的担忧(融资、组织、欧洲科研生态、可产出路径)以及关于人类推理与机器学习本质的理论性争议。
支持者认为纯基于静态文本训练的LLM缺乏对时空因果结构的直接感知,因而擅长“重混”已知概念但难以产生真正的发明或具因果性的泛化。评论多次指出婴儿在前几年内获取的感官数据远超文本语料,若把视觉、动作、持久对象表征和时间建模纳入训练,可能带来新的创造力和可迁移推理能力。有人强调仅把感知模块“绑”到语言模型上效果有限,必须在架构层面整合多通道感知、持续对象表征与时间因果推理,这正是世界模型与JEPA主张的方向。部分评论还认为即便只是部分成功,也可能解锁当前LLM结构上难以达到的推理与因果能力。
反对者指出现代模型已变得多模态,把视觉—动作的LLM放在RL或机器人循环中可以产生在线反馈和学习,理论上能弥补“接地”不足。评论里提到AlphaGo的RL阶段、RLHF 与 agent 架构带来的能力跃迁,并认为RL与工具调用、上下文扩展能把LLM从单纯“续写”转向解决实际任务。有人还质疑世界模型中用到的MPC在大规模部署上的计算可行性,因而倾向于通过可扩展的多模态+RL/agent链来演进能力而非彻底换架构。部分评论补充说持续微调、长期上下文或代理记忆等工程办法也能缓解若干缺陷。
质疑者强调把真实物理世界建成可学的训练目标远比文本或受控模拟复杂得多:真实世界是高维、连续、非线性且伴随稀疏与不可重复的测量误差,评论里有人估算要构建可靠物理动力学模型可能需要“多EB级”数据与远超现有LLM的模型规模。许多评论指出用纯模拟训练会跳过真实世界中最难的测量与推断问题——模拟可重复且低噪声,但现实测量有场地/时间耦合的特异性噪声,会严重破坏推断。尽管有人提出通过在架构上约束自由度或采用层次化自组织表示来降低学习难度,但多数人认为这是长期的理论与工程挑战而非短期可解的问题。
讨论不仅限技术,还集中在这笔约10亿美元融资的商业与地缘影响:有人把这笔钱视为对欧洲建立前沿AI实验室的利好,能吸引人才并补强非美中阵营;也有人提醒种子轮大额资金会带来回报压力,投资人期待商业化路径而非纯学术论文。评论引用LeCun离开Meta的背景与他在企业内受限的观点,认为从企业研究到可产出产品需要不同的管理与运营能力。还有人关注总部/税务与多地办公(巴黎、蒙特利尔、新加坡等)的安排、股权估值以及被大厂并购或挖角的可能性。
评论中出现对人类推理本质的密集讨论:一些人援引Kahneman与Wason选择任务说明人类日常主要是快速、联想式的System 1,而正式演绎性推理是缓慢且费力的;也有人反驳称受过训练的人能进行形式化逻辑推理,二者并非完全可比。另有讨论聚焦生物学习机制(自组织、好奇心/负惊讶驱动)与人工神经网络中反向传播的不同,认为简单把backprop持续化未必能重现生物学习的效率与策略。这些争论反映出对“理解/comprehension”与“智力”尚无统一硬性理论,进而影响对哪条技术路线更可能通往AGI的判断。
多条评论把JEPA及其变体(如I-JEPA、leJEPA)视为LeCun路线的核心技术:与像素重建不同,JEPA在表征空间做预测以学习跨视角或时序一致性,能减轻像素级重构的惩罚并学得更抽象的表征。评论援引DINO、SAM、DETR、MAE等自监督成果证明标签免费训练已有显著进展,并列举小团队在健康时序数据上训练JEPA的实例,表明这类方法已有实务可行性。与此同时也有人警示,如何在真实、噪声多变的物理数据上保持保真与可验证仍需更多基准与工程化工作,社区正在推动像SWITCH这样的可操作界面基准来填补空白。
许多评论把注意力放在工程可行性與用户体验权衡上:模型不停在线更新会导致回归、不确定性与灾难性遗忘,现实中需要混合采样、记忆重放或结构性机制来保留旧知识。用户常希望工具可预测且可回溯,因此把长期记忆放在上下文窗口或外部文件成为常见权宜之计,而非随时改变权重;也有人主张用快照保存可复现的模型版本。评论还提到像Google的“test-time memorization”或agent式持续学习作为折衷方案,但都存在采样平衡、计算与工程复杂度的问题。
JEPA: JEPA(Joint-Embedding Predictive Architecture)是一类自监督方法,在embedding/表征空间预测不同视角或未来的表示而非像素级重构,旨在学习跨视角与时序一致的抽象表征以减少噪声与训练开销。
I-JEPA: I-JEPA(Image-JEPA)是JEPA在图像域的变体,通过在表征空间做视图一致性预测来避免像素级重建带来的训练惩罚和噪声。
LLM: LLM(Large Language Model,大型语言模型)指基于Transformer等架构、在大规模文本或多模态token上训练以预测token的模型;讨论中关注其以“续写/概率预测”为主的训练目标及由此带来的局限。
autoregressive models: 自回归模型(autoregressive models)按序预测下一个token或输出(如GPT家族),此类顺序决策会带来误差累积与连锁效应,是讨论架构优劣的重要争点。
Reinforcement Learning (RL): Reinforcement Learning(RL)通过环境奖励信号训练策略以在交互中优化长期回报,常用于机器人控制与AlphaGo等,是将模型与物理世界/试错循环连接的主要手段之一。
catastrophic forgetting: 灾难性遗忘(catastrophic forgetting)指在连续在线学习新任务或数据时,神经网络迅速丢失先前学得知识的问题,需要重放、记忆保护或架构性机制来缓解。
MPC: MPC(Model Predictive Control,模型预测控制)是一种基于模型的在线规划与控制方法,通过在预测的未来轨迹上反复求解优化来选动作,评论中提到其在物理世界决策里的潜在作用及大规模计算代价。