News Hacker|极客洞察

🧭李飞飞:空间智能是AI下一前沿 — 评论聚焦网格细胞、世界模型与实用性争议
只是收集空间数据就能造出常识吗?

🎯 讨论背景

Fei‑Fei Li 的文章提出“空间智能”作为下一前沿,并由其创立的 worldlabs.ai(聚焦空间智能与可控世界模型的初创公司)推动这一议题。讨论将神经科学见解(如 entorhinal cortex 与 grid cells)与工程/产业现实交错对照:一方面有人主张以坐标变换为核心的生物启发路径,另一方面有人质疑公开论述更多是宣传且缺乏数学与可验证指标。社区同时聚焦世界模型需内嵌动力学与不变性(equivariance/invariance)、视频与点云等空间时序数据稀缺、记忆/持续学习(RAG、Nested Learning、catastrophic forgetting)的问题,以及仿真向真实世界迁移的困难。少数研究原型(如 Genie 3、Veo 3)和业界路线(DeepMind、自动驾驶公司)被拿来对比,但能否实现普适且可商用的空间智能仍存在广泛争议。

📌 讨论焦点

神经科学路径:网格细胞与坐标变换

部分评论者从神经科学出发,主张 entorhinal cortex(内嗅皮层)和 grid cells(网格细胞)通过实时坐标变换支撑空间理解。有人提交了 arXiv 综述并认为动物能在多种坐标系间切换,人类拥有最多的坐标表示,核心能力是“何时以及如何转换坐标系以提取信息”。反对声音提醒网格细胞并非万能,placement、path integration 与 sequence generation 等能力之间存在显著鸿沟;DeepMind 等工作展示了网格样表示与抽象推理的联系,但评论普遍认为这还不足以直接等同于通用智能。该派观点把空间表示的构建看作通向更高层推理的关键组成部分,但承认需要更多机制来填补与高层认知之间的空白。

[来源1] [来源2] [来源3] [来源4] [来源5]

对Fei‑Fei及World Labs论述的怀疑(营销与空泛)

多位评论者把文章看作创业宣传或空泛演讲,批评缺乏数学推导、实验细节或可验证的指标,并指出文中对 Google/DeepMind 等相关工作的选择性忽略使文章更像公司宣发。有人提到 Fei‑Fei 的历史贡献主要在于构建大规模数据集(ImageNet),这与提出新架构或理论并非同一类成就,需区分数据工程与理论突破。另有实务性担忧包括训练与推理时视频/沉浸式数据的巨大算力开销,以及公开 demo 的脆弱性和表面相似性问题。

[来源1] [来源2] [来源3] [来源4] [来源5]

工程实证:用 agentic coding 与 CAD 体现“感觉”需求

有人分享用 agentic coding 在 CAD 中的实操经验:通过对三维模型做计算几何(将代表连接件的球体在模型上卷积)来“感觉”并定位端口,从而自动添加螺纹,证明几何感知对空间任务的重要性。实现依赖可审计的代码化 3D 表示(如 OpenSCAD、CadQuery),因为几何结果难以用自然语言精确描述或直接通过图像 demo 完成。多条回复认为 generative CAD 有巨大潜力,但当前模型缺乏“常识式”形状连接理解,需更多代码化工具、数据集或物理仿真来训练更稳健的系统。

[来源1] [来源2] [来源3] [来源4]

世界模型与物理一致性:不可靠海量数据投机取巧

评论中反复强调世界模型必须内嵌一种‘物理学’——不是单一的物理定律,而是对动力学、不变性(invariance)与协变性(equivariance)的紧致表述,否则模型只能在表面拟合帧间相似性而非保持严格的一致性。虚拟世界或受限仿真使问题可解,但向真实物理世界推广涉及不同的工程与理论难题,因而很多在受限环境学到的规律无法直接迁移。评估标准应关注逐帧一致性、对平移等变换的 equivariance,而不是仅凭视觉相似度来判断进步;尽管有 Genie 3、Veo 3 等原型展示更连贯的世界模型,是否能普适化仍存疑。

[来源1] [来源2] [来源3]

谁领先?公司路线和应用端异见

讨论中对 World Labs、DeepMind/Google、研究原型(如 Genie 3、Veo 3)以及自动驾驶企业(Tesla、Waymo)进行了比较:部分人认为 World Labs 的公开 demo 有吸引力但存在视差/深度等脆弱性,DeepMind/Google 的研究与其他原型在一致性和空间推理上常被拿来对比。自动驾驶领域被指出主要采用感知—规划—控制的工程化管线,而非类动物式通用空间认知,因此不能简单视为解决通用空间智能的同类路线。评论也提到一旦空间智能成熟,军用与民用场景都会产生巨大的影响与算力需求。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

记忆与持续学习:个性化上下文、遗忘与训练方法

很多人把另一关键瓶颈归结为记忆与持续学习:现有 LLM 多靠静态网络语料训练,人与模型的交互与修正不会被永久吸收,导致上下文丢失和重复纠错的体验。有人提到 Google Research 的 Nested Learning 作为可能绕过 catastrophic forgetting(灾难性遗忘)的方法:将系统拆分为可独立重训练的子模型以避免互相干扰;而 RAG(检索增强生成)被视为一种暂时性记忆补丁但并不等同于内化经验。评论也讨论了 RLHF 带来的短视偏差、DPO 等替代训练方案,以及测试时权重更新对可解释性与安全性的权衡。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

数据和算力瓶颈:空间/时序数据稀缺与代价

多条评论指出空间与时序数据不像文本或静态图像那样充足,训练视频或沉浸式世界模型的 token 与算力开销很高(有人举例 512×512 图像对应约 85 token,视频每秒数百 token 的量级),这使训练与实时推理成本成为关键瓶颈。点云(point cloud)几何检测在工程上部分可解,但在同质表面、噪声或遮挡场景下仍困难,且早期创业公司缺乏 VC 资金支持去构建必要的数据集和工具。仿真与数字孪生被认为是缓解数据稀缺与高成本的一条可行路径,但能否覆盖真实世界复杂性仍有争议。

[来源1] [来源2] [来源3] [来源4]

乐观展望:空间智能推动机器人与新应用

也有评论乐观认为一旦掌握稳健的空间智能,将催生家务机器人、全自动车辆、无人机群、工业自动化与军用系统等广泛应用,进而带来巨大的算力和资本需求。评论提醒潜在市场非常大,但当前系统距离动物式通用空间推理还有显著差距,因此从研究验证到实际商用需要同时解决一致性、长期记忆与物理交互等多个工程研发问题。这个观点把空间智能看作能够开启下一个工业化浪潮的关键枢纽,但承认实现路径不唯一且风险与成本并存。

[来源1] [来源2] [来源3]

📚 术语解释

grid cells(网格细胞): 在内嗅皮层发现的一类神经元,形成格状放电图谱并用于位置编码与空间导航的神经机制;被提出作为构建坐标变换和空间表征的关键元素。

entorhinal cortex(内嗅皮层): 大脑中与导航和记忆密切相关的区域,包含 grid cells,研究者认为其在坐标变换与多坐标系表征中扮演核心角色。

world model / world models(世界模型): AI 中用于内部模拟环境状态、动力学与因果关系的模型,旨在预测帧间变化并支持规划与推理;要有效工作需处理一致性、动力学建模和对变换的不变/协变性。

equivariance / invariance(协变/不变性): 机器学习中描述模型对输入变换的响应特性:invariance 表示对某变换不敏感,equivariance 表示输出随变换以可预测方式变化。空间推理与运动表示需要恰当的协变/不变性以保证一致性。

RAG(Retrieval-Augmented Generation,检索增强生成): 一种在生成模型中结合外部检索结果的策略,用来弥补长期事实记忆或提供上下文,但它是检索而非把经验永久内化的记忆系统。

RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习): 用人类评分或偏好训练策略模型的强化学习方法,常用于对话模型以提升对齐,但可能带来短期偏差和训练偏差问题。

catastrophic forgetting(灾难性遗忘): 深度模型在增量训练新任务时,往往会迅速丧失在旧任务上的表现,是持续学习与在线更新中的主要障碍。

point cloud(点云): 由 LiDAR 或深度传感器生成的三维点集合,常用于几何重建与空间理解,但在噪声、遮挡和同质表面情况下对算法构成挑战。