加载失败
Marble 是 World Labs 发布的项目(演示位于 marble.worldlabs.ai),声称用多模态输入生成“world models”并以 Gaussian Splat 等方法导出可在网页或引擎中渲染的资产。社区讨论集中在两条路线的差别:一类是像 Marble 这种基于多视角重建/ Gaussian splatting 的静态资产导出与工程化应用,另一类是 DeepMind 的 Genie 等实时按帧生成的世界模型,它们在交互性上更强但对 H100/TPU 等算力和成本要求更高。游戏开发者侧重于导出 OBJ/FBX、碰撞网格、贴图与对象拆分等可用性需求;认知层面批评者则指出当前方法缺乏路径积分、长期记忆和情感-感觉整合等认知要素,因此质疑“world model”标签的适当性。
许多评论认为 Marble 更像是把多视角图像生成或多视角立体重建(如 360° 全景重投影)用 Gaussian Splat 表示出来的静态资产,而非具备动态预测或长期记忆的“世界模型”。具体证据包括可见的图像重建伪影与数据阴影(data shadow artifacts)、扫描/重建特有的拼接错误,以及评论里反复提到的这种方法忽略了路径积分、记忆巩固和感觉-情感整合等认知维度。有人从生物学和认知科学角度批评,这种瞬时的光学流或静态体表示无法承担想象、创造或深度记忆的空间-时间需求。总结性观点是:把一次性渲染的近似体表示包装成“world model”会被视为噱头而非真正的通用世界表征。
游戏开发者关心的是工程化导出:希望能导出低多边形三角网格(如 OBJ/FBX)、纹理贴图与法线贴图,并把场景拆成可分离的前景/背景对象以便导入游戏引擎。评论中明确提到 Marble 有区分 collider mesh(低多边形用于碰撞)和 detailed mesh(高多边形用于视觉),且在付费版本中可导出网格,这对整合到现有游戏管线非常重要。有人认为 Gaussian splats 很酷但并非当前渲染器的必要项,核心是把一次性 GPU 渲染成本变成可重复使用的游戏资产,从而支持像 VRChat 之类的在线多人内容。总体诉求是更标准化的导出(OBJ/FBX)、对象分离和更可控的世界/资产管理以提升工程可用性。
评论把 Marble 与 DeepMind 的 Genie(DeepMind 的实时生成视频 world-model 项目)对比:Genie 能按用户输入实时生成响应视频/动画,而 Marble 产出的是静态的 Gaussian Splat 资产供离线渲染和复用。现实瓶颈在于算力与成本:Genie 这类按帧生成的系统需要大量 H100/TPU 等高端算力,运行时成本非常高昂;相对地,Marble 的一次渲染后复用的模式在经济上更易接受。社区还引用了开源项目 DiamondWM(一个基于 FPS 游戏画面训练、能在本地生成低分辨率帧的世界模型)来说明技术上已有不同取舍:实时交互可以更丰富但成本/可扩展性受限,离线资产更经济但交互性有限。
讨论中多次出现“world model 定义不清”的观点:有人将其理解为能预测世界动态、支持规划和模拟的内部表征,另一些人期待它成为可自由漫游与交互的 3D 第一人称世界。Yann LeCun 等研究者提出的长期路线侧重于重构 AI 架构以减少对 LLM 风格网络的依赖并降低幻觉(hallucination),这一路线与目前更偏向图形和重建的系统存在差距。争论的核心在于模态和功能——是否必须包含长期记忆、路径积分、价值/情感中继和可控动力学,还是仅以视觉多视角合成就能算作“世界模型”。评论反映出两派预测:有人认为真正交互的 3D world model 很快会出现,也有人认为当前方法远未达到认知层面的要求。
少数评论对 Marble 的交互式 Web 演示表示肯定,认为 demo 在体验用户输入到输出的闭环方面令人印象深刻,能直观看到技术路线的可行性。支持者承认质量还有提升空间,但认为把多视角图像与 diffusion/token 技术结合生成可视资产的工作流已经具备实际应用价值。评论里也提到即便这不是最终的认知级 world model,Marble 在 3D 设计、资产生成和某些在线游戏场景中已有吸引力。总体上这些正面意见与对进一步工程化(如导出、对象拆分、减少伪影)的期望并存。
World model(世界模型): 在机器学习与认知科学中,指能够内部表示并预测世界状态以支持规划、想象或仿真的模型。社区对其含义并不统一:有的侧重动态预测与长期记忆的内部表征,有的期待可漫游/可操作的 3D 表示。本文讨论正是围绕“什么算是真正的 world model”展开。
Gaussian splatting / Gaussian Splat: 一种基于模糊点云或高斯小球(Gaussian blobs)的场景表示与渲染技术,通过对点集附加高斯权重快速合成多视角图像。该方法常用于生成近似 3D 视觉资产,适合静态视图合成但不是传统的精确多边形网格表示。
NeRF(Neural Radiance Fields): 用神经网络表示场景的隐式体积辐射场,通过学习从任意视角合成图像的体积函数来实现高质量的新视点合成。NeRF 是近年多视角重建与 view synthesis 研究的重要基线,与 Gaussian splatting 属同一技术谱系但实现细节不同。
Mesh export / Collider mesh(网格导出与碰撞网格): 游戏与物理引擎中的工程概念:mesh export 指以 OBJ/FBX 等标准格式输出三角网格、纹理与法线;collider mesh 指用于物理碰撞的低多边形近似网格,而 detailed mesh 指用于视觉显示的高多边形网格。开发者强调这些是将研究/演示产物投入生产环境的关键。