⚠️ Anthropic Opus 4.6 的漏洞检测：规模宣称、误报与滥用担忧

26 1 天前 anthropic.com

⚠️Anthropic Opus 4.6 的漏洞检测：规模宣称、误报与滥用担忧

把找零日的放大镜给全世界真不会被人滥用吗

🎯 讨论背景

本讨论源于把前沿大型语言模型应用于漏洞检测的实践与产品化尝试，Anthropic 在 Claude 系列上推出面向代码安全的能力并用其模型 Opus 4.6 报告大量漏洞发现。OpenAI 的 Aardvark 与 Google 的 BigSleep 是大厂在同一方向的对照案例，社区在比较规模和方法论时把注意力放在误报率、成本披露和可复现性上。许多评论强调把 LLM 当作能调用 Semgrep、CodeQL 等工具的 agent 更可控，同时担忧这种低门槛发现能力会被用于大规模扫描开源项目寻找 0day，要求平台做账号与行为层面的监测。对比、度量与滥用防护被视为将此类能力安全落地的关键。

📌 讨论焦点

LLM 驱动的漏洞发现：潜力与规模争议

评论围绕 LLM 在漏洞发现方面的潜力与规模展开辩论。Anthropic 宣称其模型 Opus 4.6 发现了约 500 个“高严重性”漏洞，这一数字远高于 Google 的 BigSleep（报道约 20）且 OpenAI 的 Aardvark 尚无公开统计，因而有人质疑“高严重性”的定义与比较基准。支持者指出 Claude Code Security 能“像人类安全研究员一样”阅读与推理代码，私下有不少漏洞研究员对此表示兴奋；反对者则认为部分发现可能只是静态分析能检测到的常见问题或被夸大。

[来源1] [来源2] [来源3] [来源4]

误报与可验证性：需要 cost/vuln 与混淆矩阵等度量

社区强调衡量这类工具需要统一且可审计的指标。DARPA 在 AIxCC 竞赛要求使用 LLM 的漏洞发现者披露 cost/vuln（每个漏洞成本）和 confusion matrix（混淆矩阵）来量化误报与漏报，这是对比不同基础模型的关键数据。多个评论抱怨现有产品会重复静态检测的结果并产生大量误报，但也有实践者报告 Opus 4.6 的误报率低于 50%。因此，只有在披露误报率、成本和样本规模后，才可能对厂商间的“谁领先”形成有根据的判断。

[来源1] [来源2] [来源3]

工具整合与“虚拟安全工程师”路线

许多评论者认为把 LLM 当成调用工具的 agent，比单纯端到端的 LLM 更实用。把 LLM 安全 agent 与 Semgrep、CodeQL 等静态分析工具结合，可以显著降低误报并提供可审计的检测链条，因此有团队把未来定义为“virtual security engineer”（虚拟安全工程师）由 agent 做重复性工作、人类做决策。实际经验显示，良好的工具链接入对效果影响很大，社区把这视为更可控的落地路径而非完全替代人工专家。倡导者还强调应由人类作为 appsec 管理者来监督与复核自动化检测结果。

[来源1] [来源2] [来源3]

滥用风险与账号/行为监测

评论对滥用风险表示关切：低门槛漏洞发现工具可能被恶意方用于大规模扫描开源仓库或 npm 包以寻找 0day。有人建议平台应对大量源代码级请求或异常使用模式设立告警，以便区分合法的 npm audit 或单仓库深度审查与可疑的批量滥用。关于是否应限制研究用途存在分歧，但普遍共识是需要在允许研究和防止滥用之间建立监测与响应机制。另有评论提到平台代币被大量消耗以对抗 AI 机器人蜂群，反映出运营级别的滥用检测缺失与道德悖论。

[来源1] [来源2] [来源3] [来源4]

市场竞争、增长效应与道德悖论

有人从市场视角担忧更快的代码产出会扩大攻击面，进而催生更多安全创业和融资机会。评论提出小公司如何在 Anthropic、OpenAI、Google 等大厂的规模优势与模型能力面前竞争，质疑单纯速度或宣传是否能成为差异化竞争力。实际差异化可能取决于误报率、成本披露（cost/vuln）、工具整合与可验证性，而非仅靠“发现数量”的宣传。部分评论还提醒：解决问题的工具可能同时是造成问题的原因（“你解决问题也可能造成问题”），要求对厂商责任进行反思。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

Claude Code Security: Anthropic 推出的代码安全功能，宣称能像人类安全研究员那样阅读与推理代码以发现复杂漏洞。

Opus 4.6: Anthropic 的一版大型语言模型（model），被报道用于自动化漏洞发现并声称发现了大量高严重性漏洞。

Aardvark: OpenAI 推出的漏洞检测/安全相关功能（产品名），用于将 LLM 能力应用于安全问题。

BigSleep: Google 在 2024 年推出的与漏洞检测相关的产品或功能名称，这里作为大厂同类产品的对比参照。

Semgrep: 一种静态代码分析工具，适合集成到自动化漏洞发现流水线中，评论中被提及为降低 LLM 误报的重要工具。

CodeQL: GitHub/微软生态常用的静态分析与代码查询工具，常被用于构建可重复的漏洞检测规则与证据链。

DARPA AIxCC: DARPA（美国国防高级研究计划局）组织的 AIxCC 竞赛，要求参赛队在使用 LLM 做漏洞发现时披露 cost/vuln 与 confusion matrix 等可量化指标。

confusion matrix: 混淆矩阵：用于评估分类模型性能的统计表格，可显示 true positive、false positive、false negative 等，帮助量化误报与漏报。

false positives: 误报：工具将非漏洞标记为漏洞的情况，是安全扫描工具实用性和信任度的关键衡量维度。

virtual security engineer: 将 LLM 与自动化工具和脚本组合成代理(agent)来执行重复性安全检测任务的概念，人工仍负责最终决策与管理。

原文链接 Hacker News 讨论

Security AI Programming Claude Code Security Anthropic Claude Opus 4.6 LLM vulnerability detection static analysis false positives

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

LLM 驱动的漏洞发现：潜力与规模争议

误报与可验证性：需要 cost/vuln 与混淆矩阵等度量

工具整合与“虚拟安全工程师”路线

滥用风险与账号/行为监测

市场竞争、增长效应与道德悖论

📚 术语解释

📚 相似内容