🙄 GPT 5.5 生物安全赏金：低额、NDA、邀测争议

136 3 小时前 openai.com

🙄GPT 5.5 生物安全赏金：低额、NDA、邀测争议

25k 加 NDA，是在买安全，还是买沉默公关？

🎯 讨论背景

这场讨论围绕 OpenAI 给 GPT 5.5 设立的一个生物安全 bounty 展开：只有经过审核的 bio red-teamers（专门测试模型生物风险的人）才能申请，入选后还要签 NDA，并围绕几道不公开的高风险问题寻找能突破安全边界的 universal jailbreak。评论者拿它和去年 Kaggle 上那种开放、可公开发表结果、奖金更高的 red-team 竞赛比较，认为这次 $25k 的规模太小、流程也太封闭。背景里还牵涉到 Anthropic（另一家 AI 公司）常用的 CBRN 风险分类，以及各种 moderation filter 对生物相关提示的拦截方式。另一个重要背景是，GPT 5.5 / Codex 已经被用户抱怨会对一些合法的生物学任务过度拒答，所以大家也在争论：安全测试到底是在补漏洞，还是在制造过度审查。

📌 讨论焦点

公关/安全叙事质疑

很多人把这次 bounty 视为公关动作，而不是认真做安全研究。对比去年 Kaggle 上那种奖金更高、结果还能公开发表的 red-team 竞赛，这次只有 $25k、还全程锁在 NDA 里，让人怀疑真正有能力的人未必愿意参加。有人认为 OpenAI 这样做是在塑造“模型危险到必须特别对待”的叙事，同时又能宣称自己在认真做 biosafety 测试。也有人把它看成一种长期的安全话术延续，和以前“模型太危险所以不能直接发布”的宣传逻辑一脉相承。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

NDA 与邀请制像无偿劳动

另一大争议是访问方式：只能申请、只能给“trusted bio red-teamers”发邀请，而且要先签 NDA。评论者觉得这让参与者承担了劳动，却几乎拿不到可公开展示的成果，像 spec work 或“隐形实习”。更糟的是，如果提交被拒，很多人认为自己仍然会被 NDA 绑住，等于既不发奖也不让说。由于测试对象还是任何人都能下载的 desktop app，一些人质疑这种 gatekeeping 并没有明显的安全必要。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

赏金机制与报酬失衡

不少评论集中火力批评奖励结构本身：只给“第一个真正的 universal jailbreak”付款，且必须清掉全部五个问题。这样一来，即使有很多人独立找到有效方法，绝大多数也不会拿到钱。有人说这本来就像 bug bounty 的“第一名奖”，但也有人指出，$25k 对 OpenAI 的体量太低，甚至连 API 使用成本都未必覆盖。整体上，这种结构被认为是在低成本收集大量尝试，而不是公平购买高质量研究。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

题目隐藏、生物风险与过度拦截

讨论里还有一条线索是：为什么题目不公开，以及“biosafety / biorisk”到底指什么。有人猜测问题会涉及厨房式小型生物实验室、DNA 序列拼接、把无害知识转成可操作的 weaponization 指南之类的内容，但也有人认为这些例子太直白，未必真是难点。另一些人顺手解释了“prompting moderation”其实是触发 moderation filter，而不是“输入 prompt”的意思。与此同时，用户还抱怨 GPT 5.5/Codex 会对 SARS-CoV-2 序列分析、gene drive 说明等合法研究过度拒答，说明 safety policy 现在常常把 false positive 做得比 false negative 更显眼。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

对定向测试的有限辩护

也有少数人认为，这种做法至少比空泛的“responsible AI”口号更具体。既然目标是验证一个明确的 biosafety failure mode，那么把范围缩小到受信任的 red-teamers，反而更容易分析结果、减少噪音。还有人推测，邀请制可能是为了避免普通用户随机输入相似提示时，平台分不清是在做挑战还是在做恶意尝试。按照这个思路，这更像一次定点安全测试，而不是面向公众的开放竞赛。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

jailbreak: 绕过模型安全限制，让它输出原本被拒绝的内容或步骤。

red-team / red-teaming: 对系统进行对抗式测试，故意寻找弱点、误判和绕过路径。

NDA: Non-Disclosure Agreement，保密协议，限制参与者公开讨论结果。

biorisk / biosafety: 与生物安全、生物滥用风险相关的概念，关注模型是否会帮助危险的生物操作。

moderation filter: 用于拦截或拒绝高风险内容的安全过滤器。

CBRN: Chemical, Biological, Radiological, Nuclear 的缩写，指化学、生物、放射、核风险分类。

model distillation: 用大模型的输出训练小模型，借此复制其能力或部分行为。

原文链接 Hacker News 讨论

AI Security Business GPT-5.5 OpenAI biosafety bug bounty NDA ChatGPT jailbreak

News Hacker｜极客洞察