News Hacker|极客洞察

298 16 小时前 deepmind.google
😬Gemini Omni 文生视频:物理穿帮、Seedance 对比、深伪担忧
连砖头都能穿帮,还敢叫真实物理吗?

🎯 讨论背景

这是 Google DeepMind 发布的 Gemini Omni Flash 视频生成演示和 model card,页面里展示了 Jenga、滚珠轨道、手洞放大地面等 prompt,还带有 “Try in YouTube Shorts” 的入口。评论区一方面在看它是否真的能保持物理一致性、镜头连续性和空间理解,另一方面直接拿它和 Seedance(字节跳动的视频生成模型)对比,认为 Google 这次并没有明显领先。因为这类模型能生成接近真实摄像机的视频,讨论很快延伸到深伪、视频证据可信度,以及是否需要 SynthID 这类 AI 内容标识技术。还有人把话题带到影视工业、VFX、storyboarding、previs 和 robotics simulation,讨论它究竟是创作工具,还是会进一步污染视频生态。

📌 讨论焦点

物理一致性仍不稳

不少人把重点放在“真实物理”其实还差得远。做刚体接触本来就不连续,Jenga 案例里甚至会出现砖块突然消失、变形或被替换的现象;滚珠视频也在转折处出现无故跳起、加速的问题。有人认为这些视频更像是“motion 的风格迁移”——抓住了观感上的合理性,而不是严格解方程得到的物理结果。也有人补充说,若要让模型稳定地学到动力学,可能得结合 3D tracking points、simulator、differentiable physics 或更适合 world state 的架构。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

与 Seedance 对比、Google 体验偏弱

评论里最直接的反应是:和 Seedance 2.0/2.1 比,Gemini Omni Flash 并没有明显赢。有人跑了不少样例后觉得它在一致性和细节上都落后,甚至只是“看起来很像”。另外还有人抱怨 Google 一贯只会展示,不肯让人真正试用:页面出现未使用却已达上限的提示,或在不同浏览器/手机上直接卡死、视频无法播放。整体上,这被看成是产品发布和可用性都还不够成熟。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

视频可信度与深伪/AI slop 风险

很多评论并不是在讨论“好不好看”,而是在担心 video 一旦可随手生成,就再也不能默认可信。有人直接提到视频证据、法庭取证和政治传播会受到冲击,还觉得需要某种认证超级产品来补上信任缺口。另一些人举了 YouTube Shorts、doorbell-cam、glitter bomb、road rage 等 AI slop 例子,说明推荐系统会把真假混在一起推送。也有人承认虚构内容仍能带来情绪回报,但一旦知道它是 AI 生成的,观看快感和“发现感”会明显下降。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16]

生成式视频作为创作工具

另一条线索是:视频生成并不一定只是“输入 prompt 然后等结果”,更像是一个需要技能和工作流的创作工具。有人提到要用 ComfyUI 搭 workflow,才能把 mocap 替换、背景替换、角色插入、镜头角度调整等能力真正用起来;也有人把它类比为 DAW 让更多人做音乐。反对者则认为这只是把创意外包,普通人并不会因为有模型就突然更有审美或更会讲故事。争议焦点其实是,它提升的是生产效率,还是会产生真正新的创作者。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

Hollywood/VFX 的真实与合成边界

不少人把这项技术放进 Hollywood 和 VFX 的现实工作流里看,而不是把它当作“完全替代人类”的神话。评论提到 storyboarding、previs、mocap replacement、camera angle 变化等环节早就会用到 AI 或 CGI,真正有价值的是更好的 on-set reference 和更省事的后期。围绕 Project Hail Mary、Top Gun、Wicked 的长串讨论则在纠正一种常见误解:宣传里说的“real sets”“no green screen”经常被误读成“no CGI”,而实际仍然大量依赖数字替换。于是这次视频生成被看作是把这种“真实与合成混用”的流程再推进一步,而不是凭空取代整个电影工业。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

📚 术语解释

Gemini Omni Flash: Google/DeepMind 的视频生成模型或演示版本,主打更强的多模态与视觉生成能力。

Seedance: 字节跳动系的视频生成模型,评论中常被拿来与 Gemini Omni Flash 对比效果和质量。

SynthID: Google 的 AI 内容水印/识别技术,用于标记或追踪生成内容。

MuJoCo: 常用于机器人和人体动力学仿真的物理引擎,支持更细致的接触与肌肉建模。

ComfyUI: 用于搭建生成式模型工作流的图形化工具,常见于图像/视频生成管线。