加载失败
“Car Wash”测试源自一个简短的社媒示例:一句像“我想洗车,洗车点在50米处,要走路还是开车?”在对约53款模型的测评中产生分歧,并以 Rapidata(在线众包民调平台)的调查得出约71.5%的人类正确率作为对比。评论围绕三类问题展开:提示本身的语用歧义(哪里是车、是否在洗车场洗车等)、模型训练分布和迎合性导致的模式匹配行为,以及检索增强(RAG)或提示工程如何改变输出。参与讨论的实例包括 Gemini(Google 的模型系列)、Claude/Opus/Sonnet/Haiku(Anthropic 的不同变体)、Perplexity Sonar(检索/回答产品)和 GPT-5.2 等,这些例子被用来说明评测结果高度依赖运行时配置与提示细节。
很多评论指出原题在语用上高度不确定:提示没有明确车和人的位置、是否要在洗车场使用设备,甚至可能指代洗车液或玩具车等不同解读。不同参与者会基于各自常识填补缺失信息,所以在把上下文写清楚(例如明确‘在洗车场将车洗掉,车在车道上’)时多数人和模型都会选择开车。约30%的人类选择“walk”被解读为题目本身放大了二选噪声而非单纯模型推理失败;许多评论认为更合理的反应是先要求澄清而不是直接选项。总体上,这一组观点把问题归为测试设计与语用歧义,而不是只把责任归于模型能力不足。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
多位评论认为模型倾向回答“walk”并非纯粹逻辑缺陷,而是训练分布的强信号在起作用:文本中“短距离→步行”的示例远比“目的地需车辆在场”的边缘情形多。模型会把更常见、社交上可取或习惯性的建议作为默认答案,导致在少见但有确定约束的场景出错。讨论还把这种现象与模型的迎合性(sycophancy)联系起来,即模型优化目标不鼓励挑战提问者前提,从而不主动澄清。极端例子如 Perplexity Sonar 用卡路里/污染链条给出离谱但最终正确的论证,说明偶然的错误推理也能产出正确结论。
大量评论和实测表明,微小的提示工程或强制推理策略能显著改变模型输出:在提示里加入“这是个智力测试”或“Hint: trick question”、要求“use symbolic reasoning”或明确写出‘我要在洗车场洗车且车在车道上’等,能把很多模型的答案从“walk”改为“drive”。具体例子包括对 Sonnet/Opus 指明测试身份后正确率飙升、在 Gemini/GPT-5.2 中通过增加推理模式或修改措辞改变结果。由此可见,很多所谓的“推理失败”是模型没有被正确引导去使用合适的推理策略,而不是根本无法执行常识推理,因此评测应考虑统一的 grounding/脚手架来比较性能。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
不少评论质疑报道中 71.5% 的人类基线代表性:批评点包括缺乏要求写出理由、强制二选导致随意回答放大噪声,以及可能存在低质量或机器人式应答。虽然有人指出 Rapidata 确实有参与者预筛,但多数人认为仅给出选项而不允许澄清会低估真实的人类常识表现。也有人怀疑部分“walk”回答可能并非真实人类作答或受文化语境影响,因此用单一比例直接对比模型与“人类推理”不够谨慎。
讨论里有大量关于模型为推理而输出长链(chain-of-thought)所产生代价的内容:每个输出token都需要一次前向计算,因而显式的推理链既是提升正确率的手段,也会线性提高推理成本。多位评论把可见的推理链视为计算的“表面产物”或“reasoning traces”,并指出将推理迁移到潜变量/latent space 以减少显式tokens是活跃研究方向但尚未普及。评论还提到商业激励(更多tokens意味着更多计费)和工程难点(难以判定哪些token是“冗余”)导致当前实践依赖长输出,同时近期若干论文声称可以在减少tokens的同时提高性能。
评论强调同一问题在不同模型、版本或运行时配置下会得到截然不同答案:隐性记忆、用户bio或上下文注入会污染新对话,导致同一模型在不同会话/模式下行为不一致。检索增强(RAG)和基于网页摘要的回答(如 Google 搜索AI 或 Perplexity Sonar)能基于已存在的网络描述直接输出“正确”结论或奇怪的理由,说明外部检索显著改变决策路径。模型卡(例如对某些版本承认‘更强推理努力导致自证错误’)和用户报告的 Incognito/普通模式差异都提示评测必须记录是否用了 RAG、记忆或特定的推理模式,否则不同来源的结果不可直接比较。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
RAG (Retrieval-Augmented Generation): 将外部检索到的文档或网页片段并入模型上下文来生成答案的技术,常用于让模型基于最新或特定资料给出更准确或可溯源的回答。
Chain-of-thought (CoT): 在生成过程中显式输出中间推理步骤的技术或提示方法,通过暴露逐步推理来提升复杂推理任务的表现,但会产生大量中间tokens。
RLHF (Reinforcement Learning from Human Feedback): 用人工评审的偏好信号作为奖励信号来优化模型行为的训练方法,使输出更符合人类偏好与对齐目标。
Rapidata: 一种在线众包民调/评测平台(用于收集人类答复做基线对比),此次报道中所引用的人类正确率来自类似此类服务,调查设计会影响基线可靠性。
reasoning traces(推理痕迹): 模型在生成时输出的中间推理文本或内部记号,用于提高推理性能或调试,但这些可见文本并不总是对内在计算过程的忠实映射。