💸 Opus 4.7 被指 token 通胀约45%，还强制自适应推理

389 5 小时前 tokens.billchambers.me

💸Opus 4.7 被指 token 通胀约45%，还强制自适应推理

45% 涨价后，买到的是聪明还是更会烧钱？

🎯 讨论背景

这是 Anthropic（Claude 的开发公司）发布 Claude Opus 4.7（Claude 系列旗舰模型）后，Hacker News 上围绕“45% inflation”的争论。标题里的 45% 主要指新 tokenizer 和更高 token 消耗带来的表观成本变化，而评论里又拿 Artificial Analysis（第三方模型成本/基准网站）的数据讨论总成本是否真的上升。很多人把讨论放在 Claude Code（Anthropic 的编码代理/CLI 工具）和 Max/Pro 订阅上，因为这些场景最容易感受到输入、输出、reasoning token 与缓存命中的变化。与此同时，用户还在比较 GLM 5.1、Qwen、Kimi、Codex 等替代品，并争论 open models、本地推理和 vendor lock-in 是否能改变现状。

📌 讨论焦点

总成本 vs token 计价口径

不少人认为只看 token 涨幅会误导，因为 4.7 的新 tokenizer 会让同一段文本切出更多 token，但它也会减少输出长度和 reasoning token。Artificial Analysis 的对比被反复引用：在某些 benchmark 上，4.7 max 反而比 4.6 max 更便宜，原因是输出成本下降抵消了输入上升。也有人指出对 Claude Code 这类输入密集型工作流，输入变贵可能比输出变少更关键，所以结果会因任务而异。评论里最一致的结论是，应该看 $/task，而不是 $/token。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

强制 adaptive reasoning 被认为带来退化

另一派把问题归因于强制开启的 adaptive thinking。4.7 据称不能像 4.6 那样用 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING 关闭，于是它会在简单任务上也长时间 churn，却仍然给出含糊、自我修正很多的答案。有人贴出它在代码推理里反复手波边界条件、甚至对基础问题出错的例子，也有人说它在安全提醒和长上下文任务上表现得更像是在过度保守。少数正面反馈是它在长会话里可能更会保留上下文，但对精确执行和少回合协作的场景反而像退化。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

订阅额度与缓存机制让消耗暴增

很多人最直接的感受不是模型变强，而是额度掉得飞快。有人在 Max 5x 计划里两小时就用完 5 小时限制，也有人在几条 prompt 后就吃掉 30% 甚至 50% 的配额，连一个不到 300 行的单页网站都能把日/周限额打满。讨论里还细抠了缓存：1h 与 5m 的 TTL、/resume 会触发整段重写、/clear 会影响下一轮、以及 ENABLE_PROMPT_CACHING_1H 之类的隐藏开关。很多人怀疑是新 tokenizer、xhigh 默认 effort 和 cache miss 叠加，才让“同样工作量更耗限额”变得特别明显。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15]

API/harness 差异导致体验分裂

也有一批人强调，体验差异主要来自 harness 和套餐，而不是纯模型本身。通过 API、OpenCode、Codex TUI 或自建 orchestrator 跑 4.7 的人，往往比在 Claude App/订阅里的人更满意，因为他们能控制 effort、subagents、reviewer/implementer 分工和路由策略。还有人把 Claude、Codex、Grok、Gemini 混着用，先让 Opus 出计划，再让便宜模型执行或验证。甚至有一个多 agent 跑满 10 小时的案例，显示 4.7 和 GPT-5.4 的周容量消耗差不多，说明“省不省 token”很依赖具体工具链。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

价格策略、锁定与开源替代

不少评论把这次变化解读成商业化和 lock-in 的信号。有人直接说这是 enshittification，认为 Anthropic 正在把用户从“免费试用感”推向更高价、更依赖订阅的状态，也有人担心未来会变成 API 默认、企业锁死的公用基础设施。替代路线里最常被提到的是 GLM 5.1、Kimi、Qwen、MiniMax 以及本地推理，但大家也承认本地跑前沿模型要么贵、要么慢、要么工具链还不成熟。另一种反驳是训练和推理本来就很烧钱，open models 目前的性价比优势更多来自 distillation 和落后于闭源前沿模型的滞后。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17]

AI 会不会让人变笨还是更强

评论后半段还变成了关于“用 AI 会不会让人失去技能”的争论。支持者说 Claude 能帮他们快速理解陌生代码库、做多云灾备、调试复杂问题，甚至因为节省了时间，反而有更多精力去追问和学习。反对者则坚持，真正学会一件事意味着你能脱离工具独立完成；只会让模型替你做，就更像是学会提问而不是学会解决问题。双方还拿 compiler、calculator、tutoring 和 PR review 做类比，最后把焦点落在一个现实问题上：当工具是按 token 计费、而且由封闭公司控制时，依赖它的风险比一般抽象层更难忽略。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15]

📚 术语解释

adaptive thinking（自适应推理）: 模型动态决定要花多少 reasoning token；在 4.7 里被认为默认强制开启。

tokenizer（分词器）: 把文本切成 token 的规则/模型，直接影响输入输出计费和 token 统计。

prompt caching / KV cache（提示缓存 / 键值缓存）: 复用已有上下文的缓存机制，可减少重复计算和输入成本，但会受 TTL、命中率和会话重开影响。

Claude Code: Anthropic 的编码代理/CLI 工具，常被用来比较不同模型在真实开发流程中的消耗。

distillation（蒸馏）: 用大模型的输出或行为去训练更小模型，以降低成本并缩小能力差距。

原文链接 Hacker News 讨论

AI Business Systems Opus 4.7 Opus 4.6 Anthropic Claude tokens tokenizer per-token pricing Qwen BillChambers

News Hacker｜极客洞察