加载失败
这条讨论围绕 LM Arena/Chatbot Arena(一个用人类两两对战投票给大模型打分的排行榜)里的 Elo 历史曲线展开。许多人把分数下滑解读为模型“变差”或被服务方“降智”,但评论指出 Elo 本质上是相对评分,新模型不断加入时,旧模型会因为输给更强对手而掉分,即使模型本身没变。另一条线索是对模型部署方式的猜测:有人质疑高负载时是否会切换到量化版本或不同的服务配置,也有人拿 Microsoft Copilot(微软的 AI 助手)与直接 API/webUI 的体验差异作对比。整个讨论因此连到两个更大的问题:榜单分数能否反映绝对能力,以及云端模型服务是否会在精度、路由或提示词上做动态调整。
评论者强调,Arena 的 Elo 不是绝对能力值,而是和榜内其他模型的相对胜率挂钩。随着更强的新模型不断加入,旧模型会更常输,因此分数可能下降,即使模型本身没有任何改动。要判断真正的性能衰减,必须用固定测试集和固定 harness,而不是看一个持续变化的排行榜。也就是说,曲线下滑未必代表模型退化,更多可能只是基准被抬高了。
OpenAI 员工直接否认了高负载时切换到 heavily quantized models 或故意“nerf”模型的说法,强调产品体验会变化主要是因为持续调参和改进。随后有人追问是否会用 lighter quantization;另一位评论者则认为大模型服务几乎不可能长期以全 BF16 方式部署,推测会在 FFN 等部分做 QAT to FP4 之类的压缩。还有人把问题延伸到 Microsoft Copilot 和直接调用 API 的体验差异,怀疑产品层封装可能和底层模型并不完全一致。这个分支的核心不是“会不会优化”,而是“上线后是否偷偷换了精度或版本”。
也有人认为整篇内容像“slop”:标题和措辞故意强化了“模型被 nerf”的阴谋感,先制造悬念,再试图证明某种系统性降级。问题在于,最终展示的似乎只是 LM Arena 分数历史或映射关系,而这些分数本来就会因为新模型加入而变化,并不能直接证明有人动了手脚。这个视角把帖子看成是用情绪化叙事包装了一张并不支持强结论的图表。
Elo rating system: 一种基于对战结果的相对评分系统,分数会随着对手强弱和榜单成员变化而波动。
量化(Quantization): 把模型权重或激活从高精度压缩到更低精度,以减少算力和显存消耗,但可能带来效果损失。