加载失败
这篇讨论围绕 Anthropic(AI 公司)未正式发布的 Claude Mythos Preview 在 curl(广泛使用的命令行传输工具)上发现一个漏洞展开。curl 维护者 Daniel Stenberg 说,这个确认漏洞会以低危 CVE(公开漏洞编号)在 8.21.0 版本附近发布;而 Mozilla(Firefox 浏览器背后的开源组织)则在另一次评估中说,借助类似流程他们在 Firefox 150 修掉了 271 个漏洞,早先用 Opus 4.6 只找到 22 个安全敏感问题。评论区反复强调,curl 是被长期、密集审计的高成熟代码库,甚至有人拿它 66 万词的代码量和《War and Peace》作类比,所以它更像在测试模型的边际增益,而不是普通项目。争议的核心不只是 Mythos 到底有多强,还包括这类合作是不是 co-marketing(合作式营销)、以及 AI 安全扫描究竟是在夸大其词还是已经把漏洞发现和 exploit 生成的成本明显拉低。也有人质疑具体扫描是否由与 Anthropic 有关联的第三方代跑,因为文章刻意没有点名执行者。
不少人把这次结果看成 Anthropic 的营销战术,而不是纯技术突破。评论里反复提到 co-marketing、恐慌式叙事和“too dangerous to release”这类话术,甚至把 Mythos 的发布包装看成对政府、企业和媒体都很有效的宣传。有人指出 Mozilla 也参与了合作,Firefox 150 里修掉的 271 个漏洞本身就带有合作曝光效应,因此“独立客观评测”与“联合推广”很难完全分开。也有人强调,哪怕模型确实有提升,Anthropic 仍然在用夸张表述放大外界对其能力和安全风险的感知。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17] [来源18] [来源19]
很多人认为 curl(广泛使用的命令行传输工具)不是一个理想的“普通项目”样本,因为它已经被长期、密集地审计,甚至被说成是最被翻过的代码库之一。支持这个观点的人强调,curl 今年已经暴露出不少 CVE,说明并非“没漏洞可找”,只是高质量研究和 AI 工具的增量回报开始递减。反过来也有人说,正因为它这么成熟,Mythos 只找到一个问题反而证明了 curl 的工程质量,而不是 Mythos 失灵。围绕这个基准的争论,本质上是在问:评估一个新工具时,应该看“绝对漏洞数”还是“在高成熟代码上还能挖出多少边际增量”。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17]
另一派认为,不必把焦点放在 Mythos 的神话上,真正重要的是 LLM 辅助漏洞扫描已经能把发现成本压低。评论里有人强调,过去找一个漏洞往往需要昂贵的人力和时间,而现在对攻击者和防守者都更便宜,这会改变安全经济学。Mozilla 的流程也被拿来当例子:他们先搭好端到端 pipeline,再把不同模型替换进去,模型升级还能同时提升发现、写 POC 和解释漏洞的能力。有人据此主张,哪怕 Mythos 不是革命性飞跃,今天也该把 AI 安全扫描当成标准工具来用。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
不少评论怀疑 Mythos 主要只是更强的 Opus 加上更好的 system prompt、security harness 和更精细的工作流,而不是全新的能力。有人指出,Mozilla 早先用 Opus 也已经能找到漏洞,Mythos 更像是在已有流程上把模型、提示词和自动化环节调得更顺。也有人提到官方说法里真正的“大进步”未必是找 bug,而是更会写 exploit、整理报告和解释影响。总体上,这一派并不否认进步,但认为宣传把工程整合包装成了“模型本身的跃迁”。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]
还有一类担心不是“能不能找出 bug”,而是“能不能顺手写出可利用的 exploit”。有人强调 Mythos 的危险性在于它能在整个 codebase 上自主找点,再用很少的提示把漏洞串成可执行攻击,这会把 zero-day 的技能门槛压低到更广泛的人群。另一边的反驳是,熟练的人本来就能用现有模型做到类似事情,所以这更像是把已有能力产品化,而不是凭空创造新能力。即便如此,大家都同意一旦自动化 exploit 变得可靠,安全局势会明显更糟。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
维护者负担也是讨论焦点。有人说 AI 以前常产出大量 slop security reports,而最近变成了更高质量、但数量暴涨的提交,项目维护者必须花更多时间分辨真假和优先级。评论里还提到 curl 维护者公开说过,AI 让高质量报告的频率显著提高,虽然这比垃圾报告好,但也让项目承压。对开源项目来说,真正的难题不只是发现漏洞,而是如何接住这波持续涌来的自动化审计。
CVE: Common Vulnerabilities and Exposures,统一给公开漏洞编号和追踪的体系。
harness: 围绕模型搭建的自动化测试/编排层,用来批量扫描、复现并生成结果。
POC exploit: 概念验证攻击代码,用来证明漏洞可以被实际利用。
co-marketing: 合作双方借同一事件互相引流、扩大宣传效果的营销方式。
static analyzer: 静态分析器,不运行程序就检查代码潜在缺陷的工具。