🧭 李飞飞：空间智能是AI下一前沿 — 评论聚焦网格细胞、世界模型与实用性争议

136 184 天前 drfeifei.substack.com

🧭李飞飞：空间智能是AI下一前沿 — 评论聚焦网格细胞、世界模型与实用性争议

只是收集空间数据就能造出常识吗？

🎯 讨论背景

Fei‑Fei Li 的文章提出“空间智能”作为下一前沿，并由其创立的 worldlabs.ai（聚焦空间智能与可控世界模型的初创公司）推动这一议题。讨论将神经科学见解（如 entorhinal cortex 与 grid cells）与工程/产业现实交错对照：一方面有人主张以坐标变换为核心的生物启发路径，另一方面有人质疑公开论述更多是宣传且缺乏数学与可验证指标。社区同时聚焦世界模型需内嵌动力学与不变性（equivariance/invariance）、视频与点云等空间时序数据稀缺、记忆/持续学习（RAG、Nested Learning、catastrophic forgetting）的问题，以及仿真向真实世界迁移的困难。少数研究原型（如 Genie 3、Veo 3）和业界路线（DeepMind、自动驾驶公司）被拿来对比，但能否实现普适且可商用的空间智能仍存在广泛争议。

📌 讨论焦点

神经科学路径：网格细胞与坐标变换

部分评论者从神经科学出发，主张 entorhinal cortex（内嗅皮层）和 grid cells（网格细胞）通过实时坐标变换支撑空间理解。有人提交了 arXiv 综述并认为动物能在多种坐标系间切换，人类拥有最多的坐标表示，核心能力是“何时以及如何转换坐标系以提取信息”。反对声音提醒网格细胞并非万能，placement、path integration 与 sequence generation 等能力之间存在显著鸿沟；DeepMind 等工作展示了网格样表示与抽象推理的联系，但评论普遍认为这还不足以直接等同于通用智能。该派观点把空间表示的构建看作通向更高层推理的关键组成部分，但承认需要更多机制来填补与高层认知之间的空白。

[来源1] [来源2] [来源3] [来源4] [来源5]

对Fei‑Fei及World Labs论述的怀疑（营销与空泛）

多位评论者把文章看作创业宣传或空泛演讲，批评缺乏数学推导、实验细节或可验证的指标，并指出文中对 Google/DeepMind 等相关工作的选择性忽略使文章更像公司宣发。有人提到 Fei‑Fei 的历史贡献主要在于构建大规模数据集（ImageNet），这与提出新架构或理论并非同一类成就，需区分数据工程与理论突破。另有实务性担忧包括训练与推理时视频/沉浸式数据的巨大算力开销，以及公开 demo 的脆弱性和表面相似性问题。

[来源1] [来源2] [来源3] [来源4] [来源5]

工程实证：用 agentic coding 与 CAD 体现“感觉”需求

有人分享用 agentic coding 在 CAD 中的实操经验：通过对三维模型做计算几何（将代表连接件的球体在模型上卷积）来“感觉”并定位端口，从而自动添加螺纹，证明几何感知对空间任务的重要性。实现依赖可审计的代码化 3D 表示（如 OpenSCAD、CadQuery），因为几何结果难以用自然语言精确描述或直接通过图像 demo 完成。多条回复认为 generative CAD 有巨大潜力，但当前模型缺乏“常识式”形状连接理解，需更多代码化工具、数据集或物理仿真来训练更稳健的系统。

[来源1] [来源2] [来源3] [来源4]

世界模型与物理一致性：不可靠海量数据投机取巧

评论中反复强调世界模型必须内嵌一种‘物理学’——不是单一的物理定律，而是对动力学、不变性（invariance）与协变性（equivariance）的紧致表述，否则模型只能在表面拟合帧间相似性而非保持严格的一致性。虚拟世界或受限仿真使问题可解，但向真实物理世界推广涉及不同的工程与理论难题，因而很多在受限环境学到的规律无法直接迁移。评估标准应关注逐帧一致性、对平移等变换的 equivariance，而不是仅凭视觉相似度来判断进步；尽管有 Genie 3、Veo 3 等原型展示更连贯的世界模型，是否能普适化仍存疑。

[来源1] [来源2] [来源3]

谁领先？公司路线和应用端异见

讨论中对 World Labs、DeepMind/Google、研究原型（如 Genie 3、Veo 3）以及自动驾驶企业（Tesla、Waymo）进行了比较：部分人认为 World Labs 的公开 demo 有吸引力但存在视差/深度等脆弱性，DeepMind/Google 的研究与其他原型在一致性和空间推理上常被拿来对比。自动驾驶领域被指出主要采用感知—规划—控制的工程化管线，而非类动物式通用空间认知，因此不能简单视为解决通用空间智能的同类路线。评论也提到一旦空间智能成熟，军用与民用场景都会产生巨大的影响与算力需求。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

记忆与持续学习：个性化上下文、遗忘与训练方法

很多人把另一关键瓶颈归结为记忆与持续学习：现有 LLM 多靠静态网络语料训练，人与模型的交互与修正不会被永久吸收，导致上下文丢失和重复纠错的体验。有人提到 Google Research 的 Nested Learning 作为可能绕过 catastrophic forgetting（灾难性遗忘）的方法：将系统拆分为可独立重训练的子模型以避免互相干扰；而 RAG（检索增强生成）被视为一种暂时性记忆补丁但并不等同于内化经验。评论也讨论了 RLHF 带来的短视偏差、DPO 等替代训练方案，以及测试时权重更新对可解释性与安全性的权衡。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

数据和算力瓶颈：空间/时序数据稀缺与代价

多条评论指出空间与时序数据不像文本或静态图像那样充足，训练视频或沉浸式世界模型的 token 与算力开销很高（有人举例 512×512 图像对应约 85 token，视频每秒数百 token 的量级），这使训练与实时推理成本成为关键瓶颈。点云（point cloud）几何检测在工程上部分可解，但在同质表面、噪声或遮挡场景下仍困难，且早期创业公司缺乏 VC 资金支持去构建必要的数据集和工具。仿真与数字孪生被认为是缓解数据稀缺与高成本的一条可行路径，但能否覆盖真实世界复杂性仍有争议。

[来源1] [来源2] [来源3] [来源4]

乐观展望：空间智能推动机器人与新应用

也有评论乐观认为一旦掌握稳健的空间智能，将催生家务机器人、全自动车辆、无人机群、工业自动化与军用系统等广泛应用，进而带来巨大的算力和资本需求。评论提醒潜在市场非常大，但当前系统距离动物式通用空间推理还有显著差距，因此从研究验证到实际商用需要同时解决一致性、长期记忆与物理交互等多个工程研发问题。这个观点把空间智能看作能够开启下一个工业化浪潮的关键枢纽，但承认实现路径不唯一且风险与成本并存。

[来源1] [来源2] [来源3]

📚 术语解释

grid cells（网格细胞）: 在内嗅皮层发现的一类神经元，形成格状放电图谱并用于位置编码与空间导航的神经机制；被提出作为构建坐标变换和空间表征的关键元素。

entorhinal cortex（内嗅皮层）: 大脑中与导航和记忆密切相关的区域，包含 grid cells，研究者认为其在坐标变换与多坐标系表征中扮演核心角色。

world model / world models（世界模型）: AI 中用于内部模拟环境状态、动力学与因果关系的模型，旨在预测帧间变化并支持规划与推理；要有效工作需处理一致性、动力学建模和对变换的不变/协变性。

equivariance / invariance（协变/不变性）: 机器学习中描述模型对输入变换的响应特性：invariance 表示对某变换不敏感，equivariance 表示输出随变换以可预测方式变化。空间推理与运动表示需要恰当的协变/不变性以保证一致性。

RAG（Retrieval-Augmented Generation，检索增强生成）: 一种在生成模型中结合外部检索结果的策略，用来弥补长期事实记忆或提供上下文，但它是检索而非把经验永久内化的记忆系统。

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）: 用人类评分或偏好训练策略模型的强化学习方法，常用于对话模型以提升对齐，但可能带来短期偏差和训练偏差问题。

catastrophic forgetting（灾难性遗忘）: 深度模型在增量训练新任务时，往往会迅速丧失在旧任务上的表现，是持续学习与在线更新中的主要障碍。

point cloud（点云）: 由 LiDAR 或深度传感器生成的三维点集合，常用于几何重建与空间理解，但在噪声、遮挡和同质表面情况下对算法构成挑战。

原文链接 Hacker News 讨论

AI Science Fei-Fei Li Spatial Intelligence LLM Reinforcement Learning Grid cells

News Hacker｜极客洞察