加载失败
这场讨论围绕 OpenAI 给 GPT 5.5 设立的一个生物安全 bounty 展开:只有经过审核的 bio red-teamers(专门测试模型生物风险的人)才能申请,入选后还要签 NDA,并围绕几道不公开的高风险问题寻找能突破安全边界的 universal jailbreak。评论者拿它和去年 Kaggle 上那种开放、可公开发表结果、奖金更高的 red-team 竞赛比较,认为这次 $25k 的规模太小、流程也太封闭。背景里还牵涉到 Anthropic(另一家 AI 公司)常用的 CBRN 风险分类,以及各种 moderation filter 对生物相关提示的拦截方式。另一个重要背景是,GPT 5.5 / Codex 已经被用户抱怨会对一些合法的生物学任务过度拒答,所以大家也在争论:安全测试到底是在补漏洞,还是在制造过度审查。
很多人把这次 bounty 视为公关动作,而不是认真做安全研究。对比去年 Kaggle 上那种奖金更高、结果还能公开发表的 red-team 竞赛,这次只有 $25k、还全程锁在 NDA 里,让人怀疑真正有能力的人未必愿意参加。有人认为 OpenAI 这样做是在塑造“模型危险到必须特别对待”的叙事,同时又能宣称自己在认真做 biosafety 测试。也有人把它看成一种长期的安全话术延续,和以前“模型太危险所以不能直接发布”的宣传逻辑一脉相承。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
另一大争议是访问方式:只能申请、只能给“trusted bio red-teamers”发邀请,而且要先签 NDA。评论者觉得这让参与者承担了劳动,却几乎拿不到可公开展示的成果,像 spec work 或“隐形实习”。更糟的是,如果提交被拒,很多人认为自己仍然会被 NDA 绑住,等于既不发奖也不让说。由于测试对象还是任何人都能下载的 desktop app,一些人质疑这种 gatekeeping 并没有明显的安全必要。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
不少评论集中火力批评奖励结构本身:只给“第一个真正的 universal jailbreak”付款,且必须清掉全部五个问题。这样一来,即使有很多人独立找到有效方法,绝大多数也不会拿到钱。有人说这本来就像 bug bounty 的“第一名奖”,但也有人指出,$25k 对 OpenAI 的体量太低,甚至连 API 使用成本都未必覆盖。整体上,这种结构被认为是在低成本收集大量尝试,而不是公平购买高质量研究。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
讨论里还有一条线索是:为什么题目不公开,以及“biosafety / biorisk”到底指什么。有人猜测问题会涉及厨房式小型生物实验室、DNA 序列拼接、把无害知识转成可操作的 weaponization 指南之类的内容,但也有人认为这些例子太直白,未必真是难点。另一些人顺手解释了“prompting moderation”其实是触发 moderation filter,而不是“输入 prompt”的意思。与此同时,用户还抱怨 GPT 5.5/Codex 会对 SARS-CoV-2 序列分析、gene drive 说明等合法研究过度拒答,说明 safety policy 现在常常把 false positive 做得比 false negative 更显眼。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]
也有少数人认为,这种做法至少比空泛的“responsible AI”口号更具体。既然目标是验证一个明确的 biosafety failure mode,那么把范围缩小到受信任的 red-teamers,反而更容易分析结果、减少噪音。还有人推测,邀请制可能是为了避免普通用户随机输入相似提示时,平台分不清是在做挑战还是在做恶意尝试。按照这个思路,这更像一次定点安全测试,而不是面向公众的开放竞赛。
jailbreak: 绕过模型安全限制,让它输出原本被拒绝的内容或步骤。
red-team / red-teaming: 对系统进行对抗式测试,故意寻找弱点、误判和绕过路径。
NDA: Non-Disclosure Agreement,保密协议,限制参与者公开讨论结果。
biorisk / biosafety: 与生物安全、生物滥用风险相关的概念,关注模型是否会帮助危险的生物操作。
moderation filter: 用于拦截或拒绝高风险内容的安全过滤器。
CBRN: Chemical, Biological, Radiological, Nuclear 的缩写,指化学、生物、放射、核风险分类。
model distillation: 用大模型的输出训练小模型,借此复制其能力或部分行为。