News Hacker|极客洞察

166 10 天前 github.com
💸Claude 误判 malware,烧 token 并卡死 managed agents
每读一份文件都先当恶意软件,账单算谁的?

🎯 讨论背景

这次讨论围绕 Anthropic 的 Claude 系统提示词和 guardrail bug:Claude 在读取文件后会把很多正常代码当成潜在 malware 去做额外审查,进而阻止编辑并消耗大量 tokens。评论里把问题放在 Claude Code(Anthropic 的代码 CLI/agent)和 Claude Managed Agents(Anthropic 的托管 agent 产品)这类封闭 harness 上看,用户通常看不到完整 system prompt、tool calls、MCP(Model Context Protocol,一种模型接入外部工具和数据源的协议)或内部推理。由于 Anthropic 同时卖 API、订阅和托管 agent,大家也把它理解成谁在为多余 token 买单的商业激励问题。很多人因此转向 OpenCode(可自定义 prompt 和模型的开源 coding agent)、Aider(开源编码助手)、Codex(OpenAI 的代码代理产品)或自建 harness,希望自己控制 VM、模型和规则,而不是被平台预设安全逻辑锁死。

📌 讨论焦点

prompt 规则过宽,正常读文件被当成 malware 审查

很多人认为问题根子在 prompt 写得太糟:只要 Claude 读到文件,就要先把每个文件当作潜在 malware 做判断,而不是在确实怀疑时才拦截。这样不仅会让模型在每次读文件时做额外推理,还会把上下文塞进大量与当前任务无关的安全分析,token 和延迟都会飙升。有人还指出,规则甚至可以通过直接告诉 Claude 代码不是 malware 就被绕开,说明它既脆弱又缺少明确边界。关于触发条件,评论还提到文件名、工作区名甚至外接磁盘上的恶意字样都可能把正常内容卷进扫描。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

token 消耗不透明,用户为冗余安全逻辑买单

讨论很快上升到 token 计费和代理行为透明度:用户往往看不到 system prompt、tool calls、MCP 或内部 thought,因此很难判断额外消耗到底是必要成本还是纯浪费。有人把这种机制称作 revenue-positive bug,意思是越多无意义的检测、重试和上下文膨胀,越有利于卖 token 的厂商。也有相反观点,认为订阅制至少让用户暂时不用逐次感知成本,但一旦进入 API 价或按量计费,几十万 tokens 的损失就会非常真实。围绕这一点,评论还争论厂商是否有动力故意让模型多烧一点,或者至少不把成本优化放在第一位。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

自建 harness 与开放替代方案

另一条主线是别把自己锁在 Anthropic 的 harness 里。评论认为真正的 managed agents 应该让用户控制 VM、软件栈、模型和 agent harness,这样就能直接替换 system prompt 或换成更合适的模型。人们反复提到 OpenCode、Aider、Codex with pi 以及自建 API harness 作为替代,核心卖点是能选更便宜的模型、自己定义规则,也更容易避开这种内置 guardrail 的 bug。有人甚至估算,用一小队工程师和几个月时间就能复刻一套类似的托管 agent 基础设施,只是厂商把它包装成了闭环产品。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15]

对 Anthropic 产品质量和文化的质疑

除了技术问题,情绪上最强烈的是对 Anthropic 的失望和讽刺。有人觉得它们 high on their own supply,也有人直接骂成 script kiddies,认为公司一边讲安全和责任,一边却反复在发布质量和服务退化上翻车。也有评论指出,内部 rules for thee and not for me 式的设计很难测试,因为员工自己并不受同样提示词约束,这让问题更像制度性缺陷而不是单点 bug。反驳者则提醒,尽管大家骂得很凶,Claude 仍然是很多人最常用的 coding 模型之一,说明批评里也夹杂着现实依赖。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

📚 术语解释

system prompt: 模型在任务开始时收到的顶层指令,决定其基本行为和约束。

harness: 连接模型、工具和执行流程的外层框架,决定 agent 如何读文件、调用工具和返回结果。

managed agents: 由厂商托管的 agent 产品,用户较难自由改配模型、VM 或执行规则。

context bloat: 上下文被冗余分析、重复提示或无关内容塞满,导致效果下降、成本上升。

OpenCode: 一个可自定义 prompt 和模型的开源 coding agent 工具。

按 token 计费: 按模型输入和输出的 token 数量收费的计费方式,容易放大冗余调用的成本。