加载失败
讨论源于一篇研究,作者在无外部检索、单一 markdown 任务与不透明验证器的设定下,让模型先生成技能(self‑generated skills)再解题,得出自生成技能无助甚至负效应、而人工策划技能能显著提升的结论。评论集中批评该实验为冷启动(禁止 web search、禁止代码库探索、会话未重启),因此只测了模型把自身潜在知识文字化的效果,而非现实中通过试错或研究得到的技能。实践者普遍采用“执行→观察→提炼”的闭环:先让 agent 试错并人工引导,成功后把经验蒸馏为技能以减少后续 token 消耗并提高一致性。讨论还涉及领域差异(软件工程模型已有强先验、医疗类收益大)、自动生成文档的偏差污染风险(例如 C# 使用误导示例)、以及多层 LLM 管道导致的语义崩溃,结论倾向需要人机协作、评测与真实世界验证。
多条评论指出论文把“自生成技能”定义为在解题前让模型在同一会话内基于任务描述写出 1–5 个 markdown 技能文件,并禁止任何外部检索或代码库探索。任务集据称仅由单个 markdown 指令与一个不透明的验证器驱动,且研究并未在技能生成后重启会话,这使得所谓的“技能”只是把模型潜在知识在上下文中复述,而非来自实践或外部资料的提炼。因此结论对现实场景(例如跨文件的大型代码库、重构或需要外部文档的任务)缺乏外推性,评论者认为这是导致负面结果的关键实验设定问题。
很多实践者报告真实流程是先让 agent 试错、人工引导并在成功后把学到的步骤提炼为技能(role‑play 会话或交互式调试后再写成技能)。这种“执行→观察→蒸馏”的闭环能把失败与边界条件记下来,下一次运行就能显著减少人工干预,有人用它来做手动测试并把截图与步骤贴到 PR 中以供 review。评论普遍认为论文的冷生成设定与这类常见的、可产生高价值技能的迭代式工作流不符,因此结论不能代表实践中的技能生产方式。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
研究报告显示人工策划的技能带来 +16.2 百分点的提升,而自生成技能反而是 -1.3 百分点;评论进一步指出不同领域差异很大:软件工程仅 +4.5pp 而医疗高达 +51.9pp。一个合理的解释是前沿模型在软件工程方面已有大量训练先验,因而给模型写下技能的边际收益较小;当领域或库较新、训练数据稀缺时(例如对少见 UI 库的支持),经过人工打磨的技能能显著改善表现。实践中的例子包括用专门技能提升模型在如 Adobe React Spectrum 之类冷门库上的表现,原始模型(例如 Opus 4.6)在无技能时会产生严重错误。
评论将技能视为一种持久化的上下文或记忆工程:把重复的程序化流程写成 skill 或 CLAUDE.md 可以把昂贵的推理“缓存”下来,后续请求只需由较小或较笨的模型做路由,从而节省 tokens 和成本。有人将技能分为信息型、操作型和脚本型,并把 CLAUDE.md 当作项目级偏好与约束,用以收窄模型概率空间以提高一致性。虽然有观点担心厂商的商业动机,但多数评论认为从工程与费用角度看,技能可作为降低 token 使用、提高复用性的有效手段,尤其适合重复性工作或内部工具。
多个评论警告将 LLM 多层串联(把模型输出再作为下一次调用的输入)会导致信息退化、错误累积与“语义崩溃”,类似口耳相传的失真效应或反复压缩导致的损坏。若没有清晰的反馈回路、度量或人类监督,管道中的每一层都会放大不确定性,最终输出质量会快速下降。因此把模型自己生成的技能直接回填到下一次推理(output→input 的闭环)在缺乏校验与外部数据的情况下往往不会提升性能,反而可能引入漂移。
实务案例显示,让模型对代码库做反射并生成“最佳实践”会把训练语料里的常见但不当模式带入仓库,例如在 ASP.NET 应用中错误地推广 ConfigureAwait(false) 或滥用 Task.Run,这类自动提取反而污染上下文。评论因此强调必须有人审查与对技能进行维护,建议把自动生成的 AGENTS.md/CLAUDE.md 当作索引或速查而非权威。若要长期依赖技能,团队需要建立校验、测试和评估流程来避免把模型的偏见写进工程制导文件。
评论认为学术或纸面研究常滞后于实践数月,导致实验设置检验的是业界很少采用或并不现实的冷启动策略。建议更有意义的对照应包含:模型在执行后与人协作提炼技能、模型主动做 websearch 或沙箱实验以收集外部证据、或用顶级模型生成技能供小模型复用等条件。另有实践者主张通过 evals(自动化评测循环)来驱动技能迭代与量化改进,以避免仅凭主观或不恰当实验得出误导结论。
Self-generated skills / 自生成技能: 由模型在解题前基于任务说明自动生成的 procedural 文档或 markdown(无外部检索、无实际执行反馈),论文中用于测试 LLM 把其潜在知识写成可复用技能的效果。
Curated skills / 人工策划技能: 由人类撰写或在人机迭代中打磨出来的技能文档,通常基于实践经验、测试反馈或外部资料,研究中显示此类技能对模型性能有显著正向提升。
CLAUDE.md: 一种项目级的配置/偏好说明文件(常用于 Claude——Anthropic 的对话模型),用来向模型传达代码风格、约束与重要位置,属于工程化的技能/上下文工程手段。
Agentic coding(代理式编码): 让自治 agent/LLM 执行编码、测试、文档与迭代的实践方法,常配合技能、evals 和闭环反馈来自动化软件开发流程。
Semantic collapse(语义崩溃): 描述把 LLM 输出反复作为下一步输入或在多层模型间传递时内容逐步劣化、失真或引入漂移的现象,类似“传话游戏”造成的信息丢失与扭曲。