🤔 GSD 与 Superpowers：AI 编码元框架的 token、规划与验证争议

352 44 天前 github.com

🤔GSD 与 Superpowers：AI 编码元框架的 token、规划与验证争议

这到底是开发，还是给 token 矿场打工？

🎯 讨论背景

GSD（Get Shit Done）是一套围绕 Claude Code（Anthropic 的命令行编码助手）设计的 agent 工作流/插件，把研究、规划、实现和校验拆成多阶段，并借助 subagents、计划文件和权限控制来推进任务。它和 Superpowers、openspec、PAUL、Ralph loops 等项目都属于“agent harness”一类工具，目标是让 LLM 更适合处理长上下文、长周期、复杂代码库里的开发。评论里不断拿它和 Claude Code 自带的 Plan mode 比较：前者更自动化但常常更慢、更耗 token、也更像 waterfall 流程；后者更轻，但需要用户自己更主动地 steering 和 review。争论焦点不在于 AI 会不会写代码，而在于如何把需求、上下文、测试、权限和验证串成一个可靠的开发流程。

📌 讨论焦点

实战派：复杂任务里确实有产出

不少人把 GSD、Superpowers、openspec 这类工具当成给 Claude Code 加的高阶工作流：先把需求讨论清楚，再拆成设计、实现、校验几个阶段，让模型在复杂任务里少走弯路。支持者举了 SaaS、Swift App、博客迁移、数据处理管线和大规模重构的例子，认为它能把结果推进到 80%–95%，剩下的主要靠人工测试和收尾。也有人强调它比纯 Plan mode 更擅长 brainstorming、cross-check 和维持大项目上下文。总体上，这派人接受它“慢一点但更稳”，尤其适合长任务、绿地项目和持续迭代的工程。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

反对派：过度工程、慢、吃 token

另一大类评论认为这类 meta framework 过度工程化，真正的问题被包装成了流程、文件和 subagents 的堆叠。很多人反馈它们比直接用 Claude Code Plan mode 慢很多，动不动跑几个小时、生成一堆 Markdown 和 transcript，还会把 token 配额很快烧光。有人甚至在小功能或一般重构上觉得完全不值，因为大部分收益只是更长的 planning 过程，而不是更好的代码。对这部分人来说，简单的 PRD→task→实现、手动 steering、以及分块验证，比“自动化仪式感”更有效。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

spec 到底能不能当真相源

评论里最核心的分歧之一，是自然语言 spec 到底能不能成为 source of truth。反对者认为 spec 会 bit-rot、歧义太大、无法规模化校验，真正可执行、可验证、可在 CI 里强制更新的只有 tests，最好再配合 mutation testing。支持者则认为 spec 的价值在于对齐意图和减少误解，它不一定替代 tests，而是先把设计意图说清楚，再生成 tests 和实现。还有人把 SDD 理解成把设计选择从 spec 传导到系统其余部分，但最终还是得回到可执行验证。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

真正关键的是 review、权限和上下文控制

比起“怎么写 plan”，很多人更在意“怎么验证和收口”。有评论指出，真正有用的是 plan review 和 work review 两个 fresh subagents、测试约束、以及把 review 尽量前移到生成过程中，而不是等整段 vibe coding 完成后再补救。也有人补充，长任务里 agent 最容易在 focus 上跑偏、在权限上做出危险动作，或者在安全细节上漏掉 auth、.env、debug endpoint 这类问题，所以需要 sandbox、权限 profile、state machine、graph planner 之类的约束。换句话说，争论重点正在从“能不能写代码”转向“能不能稳定、安全、持续地交付正确变更”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

每个人都在造自己的工作流

还有一派把这些系统看成高度个人化的工作流，不适合直接拿来当通用产品。有人说它们像今天的 .vimrc/.emacs.d，强在给作者自己的习惯服务，换个人就像一团无法理解的黑箱；也有人想公开自己的系统，却担心一旦开源就得维护第二份变体。相应地，很多人更喜欢可裁剪、可组合的工具链，比如把 openspec、ralph loops、custom orchestrator 拼起来，或者至少不要把大量辅助文件直接塞进仓库。对这类用户来说，最重要的不是“一个神框架”，而是能逐步把 workflow 收回到自己手里。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

📚 术语解释

GSD: Get Shit Done，一套围绕 Claude Code 的 spec-driven / meta-prompting 工作流，用计划、执行、校验和 subagents 来推进任务。

Claude Code: Anthropic 的终端式编码助手/CLI，评论里常拿它的 Plan mode、skills 和子代理能力作对比。

Plan mode: Claude Code 的规划模式，先讨论并生成实现计划，再切换到实际编码。

subagents: 独立的小代理，用来分工做规划、实现、review 或查缺补漏。

spec-driven development (SDD): 以规格/需求文档驱动设计、测试和实现的开发方式。

agent harness: 包在 LLM 外层的调度系统，负责 prompt、状态、权限、步骤和验证。

context window: 模型一次能保留的上下文长度，常被计划文件、transcript 和长对话迅速占满。

mutation testing: 通过引入人为变异来检查 tests 是否真的能抓住错误的测试方法。

原文链接 Hacker News 讨论

AI Programming Product Get Shit Done (GSD)meta-prompting context engineering spec-driven Claude Superpowers tokens

News Hacker｜极客洞察