News Hacker|极客洞察

250 7 分钟前 github.com
🤨GSD:Claude Code 的 spec 驱动多 agent 开发争议
250K 行都写了,审过几行代码呢?

🎯 讨论背景

这是一个围绕 GSD(Get Shit Done)项目的讨论,它试图把 Claude Code(Anthropic 的终端编码代理)包装成一套 spec-driven、多 agent 的开发系统。评论里频繁拿它和 Superpowers(一个 Claude Code plugin/skills 工作流)、OpenSpec(可定制的 spec-driven 框架)、PAUL(另一个多 agent 系统)以及 Claude Code 自带的 Plan mode 作比较。争议点主要集中在:这种 harness 到底是在帮模型更好地做事,还是只是把原本可以直接完成的任务变成更长的流程、更多的 token 和更多的文档。与此同时,也有人把它当成处理长任务、复杂迁移和生产级开发的实用工具,并讨论了 `--dangerously-skip-permissions`、subagents、review agent 和测试如何配合使用。

📌 讨论焦点

Plan mode、Superpowers 与 GSD 的实战对比

评论里最集中的话题,是把 GSD 和 Claude Code 的 Plan mode、Superpowers、Copilot、Codex CLI 放在一起比较。有人觉得 GSD 或 Superpowers 在 research、brainstorming 和多层检查上更强,但代价是更慢、更啰嗦、更多 token,甚至把同一份 implementation 反复展开成多份文档。也有人反过来说,Claude Code 原生 Plan mode 已经够用,GSD 只是把流程拉长,最后并没有带来明显更好的结果。整体看,大家对它的评价很依赖任务规模:小任务偏向直接规划,大任务才更容易看出结构化 workflow 的价值。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

wrapper / harness 为长任务和上下文管理服务

支持者解释这类系统的核心价值,不是让模型更聪明,而是把 LLM 放进一个 deterministic software 的外壳里。程序负责进度跟踪、依赖排序、输出落盘和阶段切换,模型只负责需要判断力的部分。对于 reverse engineering、迁移、长时间重构这类会拖几天的任务,wrapper 被认为能避免模型做一半就停、上下文散掉、或者反复让人接手。还有人指出,GSD 的 executor 会动态生成 node、git、eslint、test runner 等命令,说明它本质上是在编排工具链,而不是单纯改 prompt。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

过度工程、token 浪费与流水线化折腾

另一派几乎是直接反感:他们觉得 GSD 这一套 ceremony 太重,试下来只看到大量 markdown、计划文件、子 agent 和来回确认,却没看到对应收益。有人把它形容成“planning-shit”,也有人认为它只是把“先想清楚再让 Claude Code 写代码”包装成了更复杂的流程。最常见的抱怨是 token 消耗太高、周期太长,而且一旦需求变动或 bug 出现,中途改道非常困难。对这些人来说,这种 workflow 更像 waterfall,而不是高效的 AI 编程。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

真正该强化的是验证、review 和测试

不少评论认为,规划本身并不神奇,真正决定代码质量的是 review、validation 和测试。有人跑 eval 后发现,plan review 和 work review agent 比华丽的 planning ceremony 更有价值,因为它们能在 before/after 工作时抓问题,而且最好由不同 subagents 独立完成,避免自我确认偏差。还有人强调,代码质量受限于验证时间,而不是 orchestration 的复杂度;AI 生成越快,就越需要把 review 提前到生成过程中。评论里也反复提到测试强制、状态机、分离 coder/reviewer、以及对 `.env` 和 auth 的安全检查,这些比“更复杂的流程编排”更关键。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

在复杂项目里真有产出,但更适合可定制 workflow

也有不少人给出非常正面的实战案例:用 GSD 做到 95% 完成度、连续几个月推进项目,甚至在一个月内写出 250K LOC,并把 SaaS、blog migration、macOS app 推到可发布状态。支持者通常强调,关键不只是工具本身,而是它是否贴合自己的 workflow;有人更喜欢 openspec 这种可逐步简化、最终自己掌控流程的框架,也有人在 GSD 上加 local dev environment、graph-based planner 或 orchestrator。还有人希望发布的不是“魔法产品”,而是可复用的 patterns,让别人按自己的系统去借鉴,而不必维护一个公共 fork。整体上,这类评论承认框架可能笨重,但认为在高复杂度、长周期、个人化很强的任务里,它确实能带来实际生产力。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

📚 术语解释

Claude Code: Anthropic 的终端/CLI 编码代理,评论里很多对比都围绕它的 Plan mode 和内置能力展开。

Plan mode: Claude Code 的规划模式,先聊天和生成计划,再决定是否进入实现阶段。

Superpowers: 一个 Claude Code plugin/skills 工作流,强调 brainstorming、设计、实现和多层检查。

subagents: 为不同子任务单独启动的代理,用来分工、复核或在不同上下文里执行工作。

harness: 把 LLM 与确定性软件逻辑编排在一起的外层框架,负责流程控制、状态管理和任务拆分。

spec-driven development: 先写 spec/PRD,再拆任务并按规格实现的开发方式,强调用文档约束生成。

OpenSpec: 一个可定制的 spec-driven 开发框架,评论里有人把它当作更灵活的替代方案。