News Hacker|极客洞察

240 183 天前 worldlabs.ai
🤔Marble:用Gaussian splats生成静态3D场景,“世界模型”称谓引争议
把静态渲染叫‘世界模型’,真有人信吗?

🎯 讨论背景

Marble 是 worldlabs.ai 推出的多模态场景生成系统,能基于用户图片与文本生成可在网页查看的静态 3D 场景,核心渲染形式为 Gaussian splats 并声称支持网格与碰撞体导出。社区讨论集中在“world model”这一命名是否恰当、生成在输入覆盖区域外的外推能力、三角化网格的质量与可导出格式,以及哪些功能属于付费项。该项目被拿来与 DeepMind 的 Genie(实时按需视频/动画生成)和开源 DiamondWM(本地低帧率世界模型)比较,凸显离线资产与在线实时渲染之间的权衡。讨论还牵涉到实际应用场景(影视、游戏、BIM、机器人)与更广泛的学术/哲学对“世界模型”和智能定义的争论。

📌 讨论焦点

实现与输出格式(Gaussian splats 与网格/碰撞体)

多数评论指出 Marble 的主要渲染输出是 Gaussian splats,但页面和示例也展示能导出三角网格(视觉网格 + 碰撞器)。游戏开发者希望能导出通用格式(例如 OBJ/FBX)、纹理贴图与法线,并把场景拆分为可交互的前景/背景对象;目前看到的三角化网格在书籍、椅子等细节处质量明显低于 splats,存在三角化伪影和洞状缺陷。还有实用层面的担忧:若输出是一个巨大的单体网格,会影响剔除、性能与交互,且部分功能(例如从新视点继续生成或导出)似乎被放在付费路径上。

[来源1] [来源2] [来源3] [来源4] [来源5]

视觉质量与视场/样本数限制

体验者普遍反馈模型在输入图片覆盖的区域表现最佳,摄像机前方几米以外或视角外的地方画质会快速下降。有人强调图像数量限制(带文本提示时约 4 张、不带时约 8 张)使得描述复杂空间(如整套房屋或航天站)非常困难,而这正是影响可用性的关键。生成结果仍优于简单的多视图重投影,但仍保留多视图重建常见的影子、伪影与数据空洞等问题;移动摄像机时常出现“dolly zoom”式的不连贯感,远处对象不随运动自然变化。

[来源1] [来源2] [来源3] [来源4] [来源5]

“世界模型”一词的概念争议

评论里多次反复指出“world model”并无统一定义:在 Marble 语境下更像是静态的三维场景或资产(Gaussian splats + 导出网格),而在机器人学或 Yann LeCun 等人的讨论中,world model 应该包含对动力学、反事实预测和可检验物理规律的建模。有人直言当前用法偏向市场化术语,容易混淆图形学的多视角一致性工作与真正能预测/模拟世界状态的模型。该争议同时暴露出研究社区与工程产品之间对“模型”“场景”“世界”这些词汇的不同期待。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

与 DeepMind Genie 及实时渲染的比较

多条评论将 Marble 的离线静态资产路线与 DeepMind 的 Genie(按需生成实时动画/视频)进行对比:Genie 能基于提示生成即时动画(例如让恐龙跳舞),但实时渲染和推理成本极高,需要大量 H100/TPU 资源,难以广泛部署。相对地,Marble 生成的是一次渲染后可重复使用的 Gaussian Splat 资产,付出一次 GPU 成本后可导入游戏引擎或导出,但交互性和动态性受限。评论还提到开源项目 DiamondWM 可在本地生成低帧率/低分辨率的“可玩”世界,显示本地化世界模型的可能性但目前在画质和帧率上有明显折中。

[来源1] [来源2] [来源3] [来源4] [来源5]

应用前景、商业化与批评

部分人很看好在电影制作(快速生成场景与虚拟演员)、3D 资产生产、BIM(建筑信息模型)和可视化等场景的实际价值,认为能加速素材制作并支持新型叙事表达。反方认为游戏的主要瓶颈不是资产建模而是创意设计、后端系统与可控性,静态场景对交互式游戏和长期项目作用有限。也有极端批评将之斥为“把渲染当智能”的伪科学,强调缺乏动态、记忆与情感等认知机制;总体讨论在技术实际可用性、费用(付费墙与 GPU 成本)与市场化术语夸大之间拉扯。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

📚 术语解释

Gaussian splats (Gaussian splatting): 一种基于高斯核的点状渲染表示,用模糊的点(splat)在三维空间上重建并直接渲染场景视图,能以点云式的方式呈现真实照片一致性的视角合成,常用于快速多视图重建。

NeRF (Neural Radiance Fields): 用神经网络表示场景体积的技术,通过多视角图片训练一个连续函数来合成新视角图像,是多视角一致性与视图合成领域的重要方法。

multiview-consistent diffusion: 将扩散模型扩展为在多视角下保持一致性的技术路线,旨在从多张输入图像生成在不同视角之间不矛盾的场景合成,但实现复杂且计算开销大。

collider mesh (碰撞网格): 游戏与物理引擎中用于碰撞检测的低多边形网格,通常与高细节的视觉网格分离以降低物理计算成本并支持实时交互。