🤨 Laguna XS.2/M.1：终端基准落后Qwen3.6，AGI叙事遭质疑

22 10 天前 poolside.ai

🤨Laguna XS.2/M.1：终端基准落后Qwen3.6，AGI叙事遭质疑

榜单都赢不了，先别急着喊 AGI 吧？

🎯 讨论背景

Laguna XS.2 和 M.1 看起来是某个刚从 stealth mode 走出来的模型发布，讨论重点落在它们在 Terminal-Bench 2.0、SWEBench-Pro 这类 coding/agent benchmark 上的表现。评论者把它们和 Qwen3.6（Qwen 系列模型）以及 Devstral 2 等模型做对比，特别关注参数规模相近时的分数差距。也有人实际在 Zed（一个代码编辑器）里通过 pool agent 测试，认为模型响应快且对 ACP spec（Agent Communication Protocol 规范）兼容不错。与此同时，发布页的图表配色和可读性也被吐槽，说明这次讨论不仅在争性能，还在争展示方式和产品定位。

📌 讨论焦点

基准分数与竞争力争议

讨论最集中在模型在 Terminal-Bench 2.0 等基准上的表现。有人直接拿出同尺寸对比，指出 Laguna XS.2 33B-A3B 的分数明显落后于 Qwen3.6 35B-A3B，也没有压过 Devstral 2 123B，因而对“竞争力”评价非常保留。也有人认为 SWEBench-Pro 可能更能体现后续提升空间，反驳说 Terminal-Bench 更难、也更能拉开差距，尤其会暴露 ops work 这类常被低估的任务。整体看，评论者并不满足于单一榜单，反而在争论到底哪类 benchmark 才更能代表真实能力。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

实际使用体验与协议兼容

少数评论给出了比较具体的上手体验，而且口径偏正面。有人通过 pool agent 在 Zed 里测试，觉得响应速度很快，agent 对 ACP spec 的遵循也比 codex、opencode 更好。这个反馈把讨论从纯分数拉回到实际工作流，强调在编辑器和代理协议里的可用性可能比排行榜更重要。也说明即便基准争议很大，模型在特定工具链里仍可能有明显体验优势。

[来源1]

AGI宣传与产品定位受质疑

有评论明显反感把新的 Transformer-based models 继续包装成“走向 AGI”的叙事，认为 Transformer 本身并不等于 AGI。也有人追问这些模型到底有什么独特之处，因为从当前结果看，它们并没有展现出足够强的差异化优势。另一些人虽然承认从 stealth mode 走出来很不错，也认可发布方在 benchmark 上比较诚实，但仍然不认为这足以支撑“很 competitive”的说法。这个分歧反映出大家对大模型宣传口径越来越敏感，更看重实际能力而不是愿景表述。

[来源1] [来源2] [来源3] [来源4]

图表可读性问题

还有一条很明确的反馈是发布页的 benchmark 图表太依赖颜色，尤其是相近的紫色，导致阅读困难。有人建议加纹理、填充图案，或者至少让条形顺序和图例更直观。虽然图表本身被认为“很漂亮”，但对色觉不敏感的人来说可访问性明显不足，甚至有人因为手机灰度模式而更难分辨。评论整体是在提醒：数据展示不只是好看，更要可读。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

Terminal-Bench 2.0: 一个面向终端/命令行任务的 benchmark，用来测试模型处理 shell、工具调用和真实工作流的能力。

SWEBench-Pro: 一个偏软件工程与代码修复的 benchmark，常用于比较 coding agent 的实际开发能力。

ACP spec: Agent Communication Protocol 规范，用来定义 agent 与工具/环境之间的交互方式。

Transformer: 以 self-attention 为核心的深度学习架构，是许多大模型的基础；评论中也被用来反驳“等于 AGI”的说法。

原文链接 Hacker News 讨论

AI Laguna XS.2 Laguna M.1 Poolside.ai Qwen 3.6 Terminal-Bench 2.0 SWEBench-Pro

News Hacker｜极客洞察