News Hacker|极客洞察

22 10 天前 poolside.ai
🤨Laguna XS.2/M.1:终端基准落后Qwen3.6,AGI叙事遭质疑
榜单都赢不了,先别急着喊 AGI 吧?

🎯 讨论背景

Laguna XS.2 和 M.1 看起来是某个刚从 stealth mode 走出来的模型发布,讨论重点落在它们在 Terminal-Bench 2.0、SWEBench-Pro 这类 coding/agent benchmark 上的表现。评论者把它们和 Qwen3.6(Qwen 系列模型)以及 Devstral 2 等模型做对比,特别关注参数规模相近时的分数差距。也有人实际在 Zed(一个代码编辑器)里通过 pool agent 测试,认为模型响应快且对 ACP spec(Agent Communication Protocol 规范)兼容不错。与此同时,发布页的图表配色和可读性也被吐槽,说明这次讨论不仅在争性能,还在争展示方式和产品定位。

📌 讨论焦点

基准分数与竞争力争议

讨论最集中在模型在 Terminal-Bench 2.0 等基准上的表现。有人直接拿出同尺寸对比,指出 Laguna XS.2 33B-A3B 的分数明显落后于 Qwen3.6 35B-A3B,也没有压过 Devstral 2 123B,因而对“竞争力”评价非常保留。也有人认为 SWEBench-Pro 可能更能体现后续提升空间,反驳说 Terminal-Bench 更难、也更能拉开差距,尤其会暴露 ops work 这类常被低估的任务。整体看,评论者并不满足于单一榜单,反而在争论到底哪类 benchmark 才更能代表真实能力。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

实际使用体验与协议兼容

少数评论给出了比较具体的上手体验,而且口径偏正面。有人通过 pool agent 在 Zed 里测试,觉得响应速度很快,agent 对 ACP spec 的遵循也比 codex、opencode 更好。这个反馈把讨论从纯分数拉回到实际工作流,强调在编辑器和代理协议里的可用性可能比排行榜更重要。也说明即便基准争议很大,模型在特定工具链里仍可能有明显体验优势。

[来源1]

AGI宣传与产品定位受质疑

有评论明显反感把新的 Transformer-based models 继续包装成“走向 AGI”的叙事,认为 Transformer 本身并不等于 AGI。也有人追问这些模型到底有什么独特之处,因为从当前结果看,它们并没有展现出足够强的差异化优势。另一些人虽然承认从 stealth mode 走出来很不错,也认可发布方在 benchmark 上比较诚实,但仍然不认为这足以支撑“很 competitive”的说法。这个分歧反映出大家对大模型宣传口径越来越敏感,更看重实际能力而不是愿景表述。

[来源1] [来源2] [来源3] [来源4]

图表可读性问题

还有一条很明确的反馈是发布页的 benchmark 图表太依赖颜色,尤其是相近的紫色,导致阅读困难。有人建议加纹理、填充图案,或者至少让条形顺序和图例更直观。虽然图表本身被认为“很漂亮”,但对色觉不敏感的人来说可访问性明显不足,甚至有人因为手机灰度模式而更难分辨。评论整体是在提醒:数据展示不只是好看,更要可读。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

Terminal-Bench 2.0: 一个面向终端/命令行任务的 benchmark,用来测试模型处理 shell、工具调用和真实工作流的能力。

SWEBench-Pro: 一个偏软件工程与代码修复的 benchmark,常用于比较 coding agent 的实际开发能力。

ACP spec: Agent Communication Protocol 规范,用来定义 agent 与工具/环境之间的交互方式。

Transformer: 以 self-attention 为核心的深度学习架构,是许多大模型的基础;评论中也被用来反驳“等于 AGI”的说法。