🤨 Mythos 在 curl 仅挖出 1 个漏洞，Mozilla 测试修了 271 个

377 2 天前 daniel.haxx.se

🤨Mythos 在 curl 仅挖出 1 个漏洞，Mozilla 测试修了 271 个

只找到一个漏洞，就能吹成安全革命了？

🎯 讨论背景

这篇讨论围绕 Anthropic（AI 公司）未正式发布的 Claude Mythos Preview 在 curl（广泛使用的命令行传输工具）上发现一个漏洞展开。curl 维护者 Daniel Stenberg 说，这个确认漏洞会以低危 CVE（公开漏洞编号）在 8.21.0 版本附近发布；而 Mozilla（Firefox 浏览器背后的开源组织）则在另一次评估中说，借助类似流程他们在 Firefox 150 修掉了 271 个漏洞，早先用 Opus 4.6 只找到 22 个安全敏感问题。评论区反复强调，curl 是被长期、密集审计的高成熟代码库，甚至有人拿它 66 万词的代码量和《War and Peace》作类比，所以它更像在测试模型的边际增益，而不是普通项目。争议的核心不只是 Mythos 到底有多强，还包括这类合作是不是 co-marketing（合作式营销）、以及 AI 安全扫描究竟是在夸大其词还是已经把漏洞发现和 exploit 生成的成本明显拉低。也有人质疑具体扫描是否由与 Anthropic 有关联的第三方代跑，因为文章刻意没有点名执行者。

📌 讨论焦点

营销与 co-marketing 疑云

不少人把这次结果看成 Anthropic 的营销战术，而不是纯技术突破。评论里反复提到 co-marketing、恐慌式叙事和“too dangerous to release”这类话术，甚至把 Mythos 的发布包装看成对政府、企业和媒体都很有效的宣传。有人指出 Mozilla 也参与了合作，Firefox 150 里修掉的 271 个漏洞本身就带有合作曝光效应，因此“独立客观评测”与“联合推广”很难完全分开。也有人强调，哪怕模型确实有提升，Anthropic 仍然在用夸张表述放大外界对其能力和安全风险的感知。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17] [来源18] [来源19]

curl 作为特殊基准

很多人认为 curl（广泛使用的命令行传输工具）不是一个理想的“普通项目”样本，因为它已经被长期、密集地审计，甚至被说成是最被翻过的代码库之一。支持这个观点的人强调，curl 今年已经暴露出不少 CVE，说明并非“没漏洞可找”，只是高质量研究和 AI 工具的增量回报开始递减。反过来也有人说，正因为它这么成熟，Mythos 只找到一个问题反而证明了 curl 的工程质量，而不是 Mythos 失灵。围绕这个基准的争论，本质上是在问：评估一个新工具时，应该看“绝对漏洞数”还是“在高成熟代码上还能挖出多少边际增量”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17]

AI 安全扫描的现实价值

另一派认为，不必把焦点放在 Mythos 的神话上，真正重要的是 LLM 辅助漏洞扫描已经能把发现成本压低。评论里有人强调，过去找一个漏洞往往需要昂贵的人力和时间，而现在对攻击者和防守者都更便宜，这会改变安全经济学。Mozilla 的流程也被拿来当例子：他们先搭好端到端 pipeline，再把不同模型替换进去，模型升级还能同时提升发现、写 POC 和解释漏洞的能力。有人据此主张，哪怕 Mythos 不是革命性飞跃，今天也该把 AI 安全扫描当成标准工具来用。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

Mythos 更像升级版 harness

不少评论怀疑 Mythos 主要只是更强的 Opus 加上更好的 system prompt、security harness 和更精细的工作流，而不是全新的能力。有人指出，Mozilla 早先用 Opus 也已经能找到漏洞，Mythos 更像是在已有流程上把模型、提示词和自动化环节调得更顺。也有人提到官方说法里真正的“大进步”未必是找 bug，而是更会写 exploit、整理报告和解释影响。总体上，这一派并不否认进步，但认为宣传把工程整合包装成了“模型本身的跃迁”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

自动化 exploit 与维护者压力

还有一类担心不是“能不能找出 bug”，而是“能不能顺手写出可利用的 exploit”。有人强调 Mythos 的危险性在于它能在整个 codebase 上自主找点，再用很少的提示把漏洞串成可执行攻击，这会把 zero-day 的技能门槛压低到更广泛的人群。另一边的反驳是，熟练的人本来就能用现有模型做到类似事情，所以这更像是把已有能力产品化，而不是凭空创造新能力。即便如此，大家都同意一旦自动化 exploit 变得可靠，安全局势会明显更糟。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

AI 报告洪水与项目负担

维护者负担也是讨论焦点。有人说 AI 以前常产出大量 slop security reports，而最近变成了更高质量、但数量暴涨的提交，项目维护者必须花更多时间分辨真假和优先级。评论里还提到 curl 维护者公开说过，AI 让高质量报告的频率显著提高，虽然这比垃圾报告好，但也让项目承压。对开源项目来说，真正的难题不只是发现漏洞，而是如何接住这波持续涌来的自动化审计。

[来源1] [来源2] [来源3] [来源4] [来源5]

📚 术语解释

CVE: Common Vulnerabilities and Exposures，统一给公开漏洞编号和追踪的体系。

harness: 围绕模型搭建的自动化测试/编排层，用来批量扫描、复现并生成结果。

POC exploit: 概念验证攻击代码，用来证明漏洞可以被实际利用。

co-marketing: 合作双方借同一事件互相引流、扩大宣传效果的营销方式。

static analyzer: 静态分析器，不运行程序就检查代码潜在缺陷的工具。

原文链接 Hacker News 讨论

Security AI Programming curl Mythos Daniel Stenberg LLM

News Hacker｜极客洞察