加载失败
SANA-WM 是 NVLabs(NVIDIA 旗下研究团队)推出的一个 world model(世界模型)方向项目,主打 1 分钟、720p、带 6-DoF camera control 的视频生成。评论区围绕它到底是不是“open-source”展开争论:代码仓库看起来是开源的,但权重、命名和发布页面并不完全清晰,很多人把它视为研究 demo 而不是成熟产品。这里的 world model 通常指能根据当前状态和动作预测下一状态的 learned simulator,既可用于 robotics planning,也可用于更一致的交互式视频或游戏世界。评论里还提到它可能是一个两阶段系统,主干模型较小,但有更大的 long-video refiner;同时,带宽消耗、长视频一致性、物理合理性和数据规模都成为争论焦点。
不少评论把焦点放在游戏里的 intentionality:FromSoftware、Lies of P 这类作品里,道具摆放、视线引导、隐藏支线都服务于整体叙事和空间逻辑。生成式世界即使看起来更真实,也可能因为细节不符合玩家预期而显得空洞,像一堆能看但不能信的布景。有人强调真正的沉浸感来自世界内部的一致性和叙事回报,而不是单纯的画面精度。也有人担心 AI 世界会把体验推向更吵、更冷漠的方向。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
另一派认为,手工设计和程序化生成本来就各有优劣,不能把非手工直接等同于没意图。Dwarf Fortress、Minecraft、No Man's Sky、Terraria、Dead Cells 等例子被拿来说明,很多受欢迎的内容本来就来自算法组合、随机性或玩家再创作。有人指出,复杂系统里要维持一致性,生成式方法在规模变大后反而可能更合适。也有人把 world model 看成更高级的 procedural system,只是需要更好的控制层和更谨慎的使用方式。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
很多评论认为 world model 的核心价值不在做视频,而在做 learned simulator。它可以让机器人先在模型里试错,再用模拟结果做 planning、tree search 和 policy evaluation,从而减少昂贵的真实世界采样。有人还提到自驾、机械臂、VLA 以及把 world model 和 LLM 结合,用来弥补后者在空间推理和物体交互上的短板。不过也有人强调,现阶段这些模型离稳定可靠的 robotics simulation 还很远。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
不少人承认 1 分钟 720p、单 GPU 生成看起来很惊人,但细看就会发现镜头转回后物体形状、洞口、书本和环境细节会漂移。评论里还指出,这个结果并不只是 2.6B backbone,本身还有一个 17B long-video refiner,所以宣传口径容易让人误判能力。有人把问题归结为训练数据不足、物理一致性不够,以及和 Seedance、Kling 这类闭源模型相比仍有差距。也有人直接质疑,把它拿去做 robotics rollout 可能是方向错了。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
一部分人对标题里的 open-source 很不买账,认为权重没放出来就不该这么叫,顶多算代码开源或 soon。也有人补充说代码仓库确实是 Apache 2.0,但模型本体在 HuggingFace 或其它页面上,SANA-WM 和 SANA-Video 的命名又很混乱。评论里还反复区分代码许可和模型许可,指出商业可用不等于这次发布就真正开权重。结果就是,大家对它到底是研究 demo、开放模型还是营销包装,存在明显分歧。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
不少留言对样例视频的观感很差,形容它们 creepy、lonely、empty,更像精致的 slop,而不是有生命力的 world。还有人吐槽演示页自动播放、循环视频会疯狂吃带宽,开着一小时都在持续吞流量。更大的担忧是,生成式内容会把市场灌满看起来还行的垃圾,抬高筛选成本,让真正好作品更难被发现。有人还把这类问题类比到 Amazon 搜索和 HR 筛选,认为噪声一多,优质内容就更难浮出水面。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
另一类评论没有把它当成自动做完整游戏的方案,而是看成游戏开发、VR 和内容制作里的一个可插拔层。有人设想用它根据 map、blueprint、低精度资产和文本描述来生成风格化画面,或者在 level editor 里补细节、做 cutscene、生成临时资产。也有人期待它和 deterministic state tracking、3D mesh generation、gaussian splatting、6-DoF camera control 结合,成为更灵活的互动世界构建工具。整体思路是,先让 AI 负责渲染或补全,再让规则引擎和人类设计师负责约束与结构。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
world model(世界模型): 一种预测环境下一步状态的 learned simulator,常用于机器人规划或交互式视频生成。
6-DoF camera control(6自由度相机控制): 相机可同时平移和旋转的控制方式,能更自由地观察生成世界。
procedural generation(程序化生成): 用算法自动生成关卡、地形、物体或流程,而不是逐项手工摆放。
Refiner(精修器): 在主模型输出后再做二次细化的模型,通常用于增强纹理、运动和长视频后段质量。
Gaussian splatting(高斯泼溅): 一种 3D 场景表示和渲染方法,用高斯点近似真实场景,常用于重建和新视角合成。