News Hacker|极客洞察

788 8 天前 openai.com
😬OpenAI靠系统提示压goblin:Nerdy人格养出怪物口癖
万亿模型的根治方案竟是“别说 goblin”吗?

🎯 讨论背景

OpenAI 这篇关于 Codex(OpenAI 的代码代理/编程模型)“goblin”异常的博文,核心是在解释为什么某个 Nerdy persona 会不断冒出 goblins、gremlins 之类的词。文章里说,问题来自训练中被奖励的 creature metaphors 和后续 RL、SFT、synthetic data 回流,最终不得不用 system prompt 先临时压住。评论区把这件事延伸到 RLHF(基于人类反馈的强化学习)、reward model(奖励模型)、mechanistic interpretability(机制可解释性)和模型“tells”这些话题上。大家一边拿 Warhammer 40k、machine spirits、prompt engineering 开玩笑,一边也在认真讨论隐私、偏差、广告植入和 AGI 争论。

📌 讨论焦点

训练奖励把 goblin 养出来

OpenAI 这篇文章被很多人解读为:goblin 不是随机长出来的,而是训练奖励把某种 Nerdy 说话风格一路放大后的副作用。评论里反复提到 RL、SFT 和 synthetic data 回流会把一个小口癖传播到别的模式里,最后连不该出现的场景也会冒出来。有人注意到最终修补几乎只是把系统提示改成“别再谈 goblin”,所以更像临时止血,而不是彻底修根。也有人猜测 reward model 或标注者本来就把 creature 词和“nerdy”联想在一起了。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

这不是魔法,而是可拆解的工程问题

另一派则觉得这完全不是魔法,而是可拆解的工程问题。文章本身已经展示了他们能定位到具体的 training signal、拆出相关 feature,并用 developer prompt 做缓解。有人承认低层数学和架构是理解的,但高层涌现行为仍在研究中;也有人直接贴出 mechanistic interpretability 工具,认为所谓“玄学”只是外部观察者没看懂。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

LLM 到底算不算智能/AGI

评论区最激烈的分歧还是:LLM 到底算不算智能。批评者把它描述成 next-token prediction、fancy autocomplete 或概率补全,认为它缺少世界模型、创造力和定义问题的能力,所以不该被叫作“聪明”。支持者则说智能本来就有很多形态,calculator、expert system、chatbot 都能在各自范围内表现出不同类型的 intelligence,而且当前模型在代码、翻译和数学上已经强到不能只用旧定义概括。AGI 这个词也被反复吐槽太模糊,导致双方很难真正对齐标准。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

各种 LLM 口癖和写作 tell 被扒

很多人把这帖当成 LLM 口癖大全:the real unlock、clean.、shape、wired、seam、smoking gun、47、em-dash,甚至混入 Hindi 或 Korean 的词都被点名。有人说这些 tell 在不同模型里很稳定,像老 Unix greybeard 的 quirks 清单,只不过对象从 shell/C 变成了 Claude、GPT、Gemini。也有人认为这主要是 RLHF、默认风格和 prompt 触发造成的,所以识别 LLM 输出的“味道”会越来越容易。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

偏差、数据留存与隐性操控风险

还有一大类担忧集中在隐私和隐藏偏差。评论者注意到 OpenAI 似乎能对“几乎所有聊天”做统计分析,因此担心用户数据是否一直被存储、索引和再训练,所谓 opt-out 只是表面文章。更大的恐惧是,这种看似无害的 goblin 偏差其实只是能被看见的版本,真正危险的可能是更隐蔽的排序偏见、信任评分或其他用户根本察觉不到的操控。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

广告、政治价值与审查会不会被塞进模型

不少评论把同一逻辑延伸到广告和政治价值注入。有人猜未来模型会悄悄替赞助商带货,也有人担心美国/中国版本的模型会默认植入各自的 censorship 和价值框架。支持者觉得这只是大模型商业化的自然方向,反对者则认为一旦回答内容本身会被广告或政府目标塑形,用户很难再把它当作中立工具。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

把 AI 当成文化/宗教/拟人对象的讽刺

这帖也引出大量拟人和文化类比:Warhammer 40k 的 techpriests、machine spirits、Omnissiah、machine elves、AI theologian,甚至“软件考古学家”都被拿出来玩。大家借这些比喻在说,prompt engineering 已经越来越像仪式,legacy code 像古代文物,而模型的风格传播又有点像文化或 proto-culture 的扩散。也有人坚持别把它神秘化:这些东西本质还是 generator、state machine 或自动补全,只是人类太爱把工具讲成生物了。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

📚 术语解释

RLHF: 基于人类反馈的强化学习,用偏好数据调整模型输出。

SFT: 监督微调,用人工示例继续训练模型以改变风格或行为。

reward model: 给候选输出打分的模型,常用于偏好学习和强化学习阶段。

system prompt: 最上层指令,用来规定模型角色、语气和禁区。

prompt engineering: 通过设计提示词来引导模型输出的做法。

mechanistic interpretability: 研究模型内部特征、权重和电路如何对应具体行为。

emergent behavior: 训练后涌现出的高层行为,往往难以直接从单个规则预测。