加载失败
这篇帖子是在做 LLM 安全能力评测:作者搭了一个故意有漏洞的应用,再花约 1500 美元让多个模型尝试找出并利用漏洞。评论区的核心背景是 Anthropic(Claude 的开发商)近期不断加重 guardrails(安全护栏),导致 Claude(Anthropic 的聊天模型)在登录、credentials、CTF(Capture The Flag 安全挑战)和 pentesting(渗透测试)里频繁拒绝。有人提到这些限制往往通过 server-side 注入的 system prompt(系统提示词)和 tool call(工具调用)前的再评估实现,所以看起来像能力下降,实则是策略层把很多合法请求也拦掉了。另一部分讨论则围绕 GPT-5.5(OpenAI 的模型)是否被白名单放宽,以及中文模型在 crackme(漏洞逆向挑战)上的表现,说明这类对比不只是在测“聪明”,也在测政策和产品设计。
很多人认为低分主要来自 Anthropic 的 guardrails(安全护栏),而不是模型本身不够强。评论里反复提到 Claude(Anthropic 的聊天模型)在登录、credentials、CTF(Capture The Flag 安全挑战)、reverse engineering(逆向工程)和安全审查里越来越容易拒绝,甚至会声称没有网络或直接终止会话。有人说它虽然仍能被劝回来,但每次都要先撞墙,导致合法 pentesting(渗透测试)也变得很难用。还有人提到这些限制会消耗 token、重放系统提示词,结果是付了钱却拿不到有效输出。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
另一批评论把这种收紧看成商业分层,而不是单纯安全。有人直接调侃未来会出现 Claude Security Professional、Claude Database Pro 之类的增值包,越是涉及攻击、优化、数据分析的场景就越要付费解锁。也有人指出 Anthropic(Claude 的开发商)一贯把 safety 放在首位,但这同样会把正常用户推向别的模型;对企业来说,这种限制既能卖更贵的专业版,也能把 offence/defense 分成不同档位。还有人干脆认为这是标准 SaaS 的安全收费逻辑,只是被包装成了伦理。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
不少人认为更合理的方向是按身份和用途动态授权,而不是一刀切拒绝。评论里有人设想 validated identity context,让模型能确认用户是应用作者或合格的 security professional,再放行安全测试、登录操作或对自己系统的检查。也有人分享实际经验:先说明并演示自己是作者后,模型就会放行;但这也说明模型并不知道真实意图,只能靠外部上下文和规则猜。这个分歧的核心不是能不能做安全工作,而是平台该不该替所有用户统一决定哪些操作可以做。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
还有人质疑这类测试方法本身是否公平,认为只让模型单独硬上太像在测 prompt 策略而不是实战能力。评论建议把任务拆开、和模型一起工作、多次运行,甚至用多个 LLM 串联来引导方向,因为这样更接近真实安全工作。也有人说 GPT-5.5 似乎被白名单放松了护栏,而 Claude 的会话终止和 GPT 的整帐户限速又不是同一种惩罚方式,横向对比并不干净。中文模型则被举例为在 crackme、patch binary、anti-debug 等场景里其实很能打,说明结果很大程度取决于方法学而非单纯模型智力。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
更宏观的争论是双重用途:如果一个 un-guardrailed model 真能快速找出漏洞,它是否应该公开。有人担心这等于把 hacking 能力直接发给大量用户,但也有人反问,既然它能帮助找漏洞和修补漏洞,为什么不让每个人都用。讨论甚至延伸到军事场景:如果 AI 被用于高风险作战,过强的拒绝可能会害人;但如果完全解除限制,滥用又几乎是必然。于是问题不只是模型能不能 hack,而是应该把这种能力交给谁、在什么条件下交。
guardrails: 模型或平台附加的安全限制,用来拒绝高风险请求或限制工具调用。
pentesting: 授权的渗透测试,用来主动寻找应用或系统漏洞。
CTF: Capture The Flag 安全挑战,用于练习漏洞利用、逆向工程和攻防技巧。
jailbreak: 通过提示词或流程绕过模型限制的方法。
system prompt: 隐藏在对话底层的系统级指令,会强烈影响模型行为。