News Hacker|极客洞察

352 44 天前 github.com
🤔GSD 与 Superpowers:AI 编码元框架的 token、规划与验证争议
这到底是开发,还是给 token 矿场打工?

🎯 讨论背景

GSD(Get Shit Done)是一套围绕 Claude Code(Anthropic 的命令行编码助手)设计的 agent 工作流/插件,把研究、规划、实现和校验拆成多阶段,并借助 subagents、计划文件和权限控制来推进任务。它和 Superpowers、openspec、PAUL、Ralph loops 等项目都属于“agent harness”一类工具,目标是让 LLM 更适合处理长上下文、长周期、复杂代码库里的开发。评论里不断拿它和 Claude Code 自带的 Plan mode 比较:前者更自动化但常常更慢、更耗 token、也更像 waterfall 流程;后者更轻,但需要用户自己更主动地 steering 和 review。争论焦点不在于 AI 会不会写代码,而在于如何把需求、上下文、测试、权限和验证串成一个可靠的开发流程。

📌 讨论焦点

实战派:复杂任务里确实有产出

不少人把 GSD、Superpowers、openspec 这类工具当成给 Claude Code 加的高阶工作流:先把需求讨论清楚,再拆成设计、实现、校验几个阶段,让模型在复杂任务里少走弯路。支持者举了 SaaS、Swift App、博客迁移、数据处理管线和大规模重构的例子,认为它能把结果推进到 80%–95%,剩下的主要靠人工测试和收尾。也有人强调它比纯 Plan mode 更擅长 brainstorming、cross-check 和维持大项目上下文。总体上,这派人接受它“慢一点但更稳”,尤其适合长任务、绿地项目和持续迭代的工程。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

反对派:过度工程、慢、吃 token

另一大类评论认为这类 meta framework 过度工程化,真正的问题被包装成了流程、文件和 subagents 的堆叠。很多人反馈它们比直接用 Claude Code Plan mode 慢很多,动不动跑几个小时、生成一堆 Markdown 和 transcript,还会把 token 配额很快烧光。有人甚至在小功能或一般重构上觉得完全不值,因为大部分收益只是更长的 planning 过程,而不是更好的代码。对这部分人来说,简单的 PRD→task→实现、手动 steering、以及分块验证,比“自动化仪式感”更有效。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

spec 到底能不能当真相源

评论里最核心的分歧之一,是自然语言 spec 到底能不能成为 source of truth。反对者认为 spec 会 bit-rot、歧义太大、无法规模化校验,真正可执行、可验证、可在 CI 里强制更新的只有 tests,最好再配合 mutation testing。支持者则认为 spec 的价值在于对齐意图和减少误解,它不一定替代 tests,而是先把设计意图说清楚,再生成 tests 和实现。还有人把 SDD 理解成把设计选择从 spec 传导到系统其余部分,但最终还是得回到可执行验证。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

真正关键的是 review、权限和上下文控制

比起“怎么写 plan”,很多人更在意“怎么验证和收口”。有评论指出,真正有用的是 plan review 和 work review 两个 fresh subagents、测试约束、以及把 review 尽量前移到生成过程中,而不是等整段 vibe coding 完成后再补救。也有人补充,长任务里 agent 最容易在 focus 上跑偏、在权限上做出危险动作,或者在安全细节上漏掉 auth、.env、debug endpoint 这类问题,所以需要 sandbox、权限 profile、state machine、graph planner 之类的约束。换句话说,争论重点正在从“能不能写代码”转向“能不能稳定、安全、持续地交付正确变更”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

每个人都在造自己的工作流

还有一派把这些系统看成高度个人化的工作流,不适合直接拿来当通用产品。有人说它们像今天的 .vimrc/.emacs.d,强在给作者自己的习惯服务,换个人就像一团无法理解的黑箱;也有人想公开自己的系统,却担心一旦开源就得维护第二份变体。相应地,很多人更喜欢可裁剪、可组合的工具链,比如把 openspec、ralph loops、custom orchestrator 拼起来,或者至少不要把大量辅助文件直接塞进仓库。对这类用户来说,最重要的不是“一个神框架”,而是能逐步把 workflow 收回到自己手里。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

📚 术语解释

GSD: Get Shit Done,一套围绕 Claude Code 的 spec-driven / meta-prompting 工作流,用计划、执行、校验和 subagents 来推进任务。

Claude Code: Anthropic 的终端式编码助手/CLI,评论里常拿它的 Plan mode、skills 和子代理能力作对比。

Plan mode: Claude Code 的规划模式,先讨论并生成实现计划,再切换到实际编码。

subagents: 独立的小代理,用来分工做规划、实现、review 或查缺补漏。

spec-driven development (SDD): 以规格/需求文档驱动设计、测试和实现的开发方式。

agent harness: 包在 LLM 外层的调度系统,负责 prompt、状态、权限、步骤和验证。

context window: 模型一次能保留的上下文长度,常被计划文件、transcript 和长对话迅速占满。

mutation testing: 通过引入人为变异来检查 tests 是否真的能抓住错误的测试方法。