加载失败
这篇讨论围绕一篇博客实验展开,作者把 Claude Code(Anthropic 的编程代理/终端工具)里的 `caveman` 插件拿来和最简单的提示词 `be brief.` 做对照。`caveman` 通过 custom skill 和不同 intensity modes 压缩 Claude 的回复,作者用 24 个 prompts、5 种方案,再让另一个 Claude 按 rubric 评分来比较 token 与质量。评论区一方面质疑单次运行样本太少、LLM 有很强的 run-to-run variability,另一方面也争论“压缩输出”是否真的影响推理,还是只影响对话历史。讨论还延伸到插件文化、prompt engineering 的实用性,以及作者本身是否也被 Claude 润色得太“像内容”而不像人的写作。
作者把 `caveman` 插件和最简单的 `be brief.` 提示做了对照,使用 24 个 prompts、5 种方案,并让另一轮 Claude 按 rubric 评分。结果显示,`be brief.` 在 token 数和质量上都几乎不输 `caveman`,因此“更复杂的压缩技巧”未必带来额外收益。支持者认为这至少说明简单提示已经足够好,没必要迷信插件。质疑者则强调每个配置只跑了一次,LLM 的 run-to-run variability 很大,单样本结论不够稳。
不少评论把这类技巧看成 snake oil、cargo cult,认为“用一个 prompt/插件战胜大模型统计学”本身就很可疑。有人指出,行业里做过 LLM 的人通常不用实验也知道这类把戏边际收益有限,问题在于它们往往安装简单、又没人检查,特别容易被当成神奇捷径传播。也有人直接把 `caveman` 归为“过度包装的废物”,认为如果目标只是少说几句,根本不值得再加一层工具链。整体语气是对所谓 LLM lifehack 的强烈不信任。
有评论强调,`caveman` 主要压缩的是最终输出,不会缩短模型内部的 reasoning,所以它并没有改变模型“怎么想”,只是改了“怎么说”。但反方提醒,最终回复会进入后续对话历史,若把推理过程删得太狠,后续长任务就会失去关键上下文,连续性会变差。换句话说,这里争论的不是单次回答是否更短,而是对话里到底该保留多少中间 reasoning 才有利于下一轮。这个分歧把话题从 token 成本扩展到了长链任务的可维护性。
很多人更偏好直接在提示前加 `be brief.`,因为它零安装、没依赖、也没有额外插件维护成本。有人试过 `caveman` 后表示几乎感觉不到变化,甚至发现自己本来就不会细读被省掉的词,所以阅读体验没有明显提升。另一些人则觉得 `caveman` 让模型像“傻子”一样说话,交互感更差,还不如直接用最简洁的方式控制输出。支持“简单方案”的核心理由就是:少折腾,比额外装一堆东西更实用。
有人注意到文章本身似乎也经过 Claude 编辑,结果是每句话都很工整,但语气被磨平了,读起来像 content 而不是有个性的写作。作者随后承认确实用了 Claude 来润色,也接受这种做法会把人味冲淡,让文章变得更标准却更少呼吸感。还有评论直接吐槽这是典型的 verbose LLM slop,和标题里强调的“少说点”形成了反差。这个分支讨论的是:AI 可以帮你改文,但也可能顺手把作者的声音抹掉。
评论区也有人吐槽 `caveman` 这个名字不够中性,建议改成 `caveperson`,或者更社区梗一点直接叫 `grug`。还有人开玩笑说可以叠加 `caveman + be brief`,甚至先用轻量模型把查询转成 `wenyan-lang` 再喂给贵模型,像是在无限套娃做压缩。虽然明显是玩笑,但也反映出大家把这类技巧当成一种可持续被“玩坏”的 prompt hack。这个分组更多是在拆解命名、梗文化和工具链叠加的荒诞感。
Claude Code: Anthropic 的编程代理/终端工具,用自然语言辅助写代码和执行开发任务。
caveman: 一个 Claude Code 插件,通过自定义技能和输出风格压缩模型回复,让它更短、更“原始”。
custom skill: Claude Code 里可注入特定行为或格式的自定义技能机制。
run-to-run variability: 同一 prompt、同一模型在多次运行中输出差异很大的现象。
chain of reasoning: 模型在给出最终回答前展开的中间推理过程。