News Hacker|极客洞察

236 3 小时前 gptzero.me
🤦EY网络安全报告被曝AI幻觉,评论区痛批咨询业和烂网页
既然都是幻觉,客户还在买什么专业咨询意见?

🎯 讨论背景

这篇被讨论的文章指向 EY Canada(Ernst & Young 的加拿大分部)发布的一份 cybersecurity report,评论和原文都指称其中大量 citations 和正文是由 LLM 生成后直接上稿,出现了明显 hallucinations。EY 属于四大会计师事务所之一,靠 audit、consulting 和权威背书收费,所以这类失误被看成对专业信誉和品牌的打击。评论区还指出原网页用了强烈的 parallax 和 scroll hijacking 设计,手机和桌面上都很难读,很多人甚至没法把正文拉到底。讨论于是从单一报告扩展到 AI 在法律、软件、管理和咨询文档中的复核问题,以及这些机构是否只是把责任、背书和返工一起外包给机器。

📌 讨论焦点

AI内容缺少专家复核

很多评论把核心问题定义为:AI 输出没有被懂行的人认真复核。有人强调文档通常是做完后才交给审阅者,既没有原始 spec,也没有过程上下文,所以审阅变成了被动修补而不是协作设计。法律、工程和管理场景都被拿来举例:校对 AI 产物往往比从头写更费时,错误还可能被悄悄埋进系统里,形成日后才暴雷的 time bomb。也有人认为,随着这种需求固定化,组织里可能会出现专门的 output compliance 或 AI QA 角色。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

咨询业与管理层动机

另一批评论认为,这类报告本来就是咨询业最典型的产物:写给老板和董事会看的 write-only 材料。外部顾问经常不是在提供新知识,而是在替管理层做背书、洗责任,让项目失败时可以说我们已经请过 EY 了。还有人指出,Big Four 近年为了压低工时和报价,不断用更便宜、经验更少的人替代资深员工,结果把效率做成了更多返工和更差质量。于是,AI 只是把原本就空泛的咨询文稿进一步放大成 generic drivel。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

让另一个 LLM 复核

还有人专门讨论让另一个 LLM 复核这个方案。支持者觉得可以把多个 frontier models 交叉审查,故意让系统偏向 false positive,这样如果 Gemini Pro、Claude Opus 和 GPT 都同意,结果通常就比较可信。反对者则指出,这会增加 token 成本、延迟和实现复杂度,而且再多模型也不能把错误率降到绝对零。最后还是回到同一个结论:Human in the Loop 不能被完全省掉。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

AI 让工作更糟并加速技能流失

不少评论把它看成更大的劳动和技能问题。AI 最常自动化掉的,恰恰是原本最有成就感、最需要判断力的部分,剩下的却是校对、清理和给模型擦屁股。有人担心教育、IT training 和手工技能会持续退化,也有人用航空业因禁止手动操控而导致灾难的例子来类比。对一些创意工作者来说,被要求长期润色 AI slop 本身就是对专业性的侮辱。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

网页滚动与交互设计灾难

也有一大串评论几乎只在骂网页。大家抱怨手机和桌面上的 scroll hijacking、强制停顿、parallax 和各种 JavaScript 动画让页面根本没法顺畅阅读。Reader View 往往只能看到开头,或者会把图片和来源一起删掉;有人只能靠拖动 scrollbar 勉强读下去。最讽刺的是,文章在批评 EY 的审稿质量,但自己的网站却像没做过任何可用性测试。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17] [来源18] [来源19] [来源20] [来源21] [来源22] [来源23]

标题、品牌与舆论热度

另一个小分支在讨论标题和品牌细节。有人注意到 HN 标题被改成 EY Canada,并把原来的拼写修正为更接近官方名称。也有人提到 EY 早在 2013 年就从 Ernst & Young 改名为 EY。顺带还有评论觉得,这种丑闻在一两年前还可能造成持久品牌伤害,但现在公众对 AI 失误的记忆会很快消散。

[来源1] [来源2] [来源3] [来源4] [来源5]

📚 术语解释

hallucination: LLM 生成看似自信但实际错误或捏造的信息。

Human in the Loop: 在自动化流程中加入人工复核和把关。

vibe-coding: 主要靠 LLM 生成代码或文档、人工只做很少监督的工作方式。

LLM-as-a-Judge: 用另一个 LLM 来检查、评分或挑错前一个模型的输出。

AI slop: 低质量、堆砌但缺乏可靠性的 AI 生成内容。