News Hacker|极客洞察

119 13 小时前 anthropic.com
😒Claude Opus 4.7 发版:tokenizer 变更、xhigh 和转投 Codex
先把 4.6 修好,再拿 4.7 出来收割吗?

🎯 讨论背景

这次讨论围绕 Anthropic(Claude 的开发商)发布 Claude Opus 4.7 展开,重点不是单纯“更强”,而是行为和使用方式的变化。官方提到更新了 tokenizer(分词器),并引入 xhigh(介于 high 与 max 之间的新 effort 档位),同时在 Claude Code(Anthropic 的终端式编程助手)里加入 `/ultrareview` 之类的新功能。评论者把它放在 Claude Code 与 OpenAI Codex(OpenAI 的编码代理/CLI)竞争的背景下看,很多人已经用它们来做 agentic coding(让模型主动读写文件、调用工具完成任务)。另一个背景是 Anthropic 还在推动 Mythos-class models(预览中的更强模型系列),但相关能力更多停留在安全护栏测试和受限访问阶段。

📌 讨论焦点

质量波动与转投 Codex

大量评论把焦点放在 4.6 的不稳定和“变笨”上:有人在简单的 tensor parallel 任务里被模型用 17K token 的幻觉输出带偏,最后还把整模型复制到每个节点;也有人说最近两周它会在某些日子彻底“失去理智”。不少人因此把日常工作转向 Codex,理由是它更谨慎、更系统,CLI 也更快、更少 bug。也有少数人认为问题并非所有场景都一样,开到更高 effort 后质量会明显回升,甚至 token 消耗还会下降。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

xhigh 与更严格的指令执行

公告里最受关注的变化之一是新加了 xhigh(extra high)effort 档位,位于 high 和 max 之间,官方还把 Claude Code 的默认 effort 提到 xhigh。评论者把它理解成更细粒度的推理/延迟权衡,也有人说用 `/effort max` 后原本的质量问题就缓解了,甚至 token 消耗还下降。另一条线索是模型现在更“字面”地遵循指令,有人希望它终于会老实读 CLAUDE.md,不再把简单任务扩成一堆多余操作;但也有人担心这会逼用户在 prompt 里写更多硬性约束。

[来源1] [来源2] [来源3] [来源4] [来源5]

tokenizer 变化与 caveman 玩笑

官方说明提到新 tokenizer 会让同样输入映射到更多 token,幅度大约是 1.0 到 1.35 倍,取决于内容类型。评论区很快延伸到 caveman 这种故意把输出改得更“原始”的小工具,有人觉得它读起来更顺眼。也有人直接泼冷水,说这类项目大多是玩笑,真正耗费上下文的还是文件读取和 reasoning,所谓节省可能不到 1%,还可能让模型为了满足格式而说更多。线程里甚至有人怀疑很多人 star 一个 40 行 markdown 文件时,并没有意识到这些限制。

[来源1] [来源2] [来源3] [来源4]

算力、额度与竞争策略

另一大主题是算力和额度:有人把 Claude 最近的糟糕体验归因于 compute 不够,认为这才是质量波动的根因。与此同时,OpenAI 通过 Codex 计划把 Pro 用户的使用额度翻倍,被视为直接争抢 Claude Code 客户的手段,而 Anthropic 的限额、价格和模型可见性则让不少人感到被“游戏化”。评论里反复出现“换平台”、取消订阅、以及“只要模型稍贵一点就不值”的态度,说明产品体验已经和基础设施资源绑得很紧。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

Claude Code 里的模型名与访问混乱

不少人发现 Claude Code 里并没有默认暴露 Opus 4.7,只能手动用 `/model claude-opus-4-7` 或 `claude --model claude-opus-4-7` 去试。即便这样,仍有人遇到“模型可能不存在或你没有权限”的报错,或者切换后其实只落回了 Opus 4。更让人困惑的是文档、CLI 输出和模型 ID 在 `4.7` 与 `4-7` 之间来回切换,像是发布流程和文档同步都没完全理顺。对想第一时间验证新模型的人来说,这种 rollout 体验相当粗糙。

[来源1] [来源2] [来源3] [来源4] [来源5]

Mythos 预览、安全护栏与 benchmark 诱饵

围绕 Mythos 的评论明显带着怀疑:官方说先通过真实部署测试 safeguard(安全护栏),再考虑 broader release,但许多人听起来像是另一版“太强所以不能放出来”的故事。有人把它类比到 GPT2,当年也常被拿来当作延迟公开的理由;也有人直接调侃,等到下一代更大的模型出来,“太强”这个说法又会自动消失。与此同时,Mythos 在 benchmark 和预告里像个诱饵,既制造期待,也让现阶段的 Opus 4.7 显得像是次一级可用版本。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

图像输入能力提升

也有人把这次更新看成图像能力的实质进步,重点是可提交的图片分辨率提高了 3 倍。评论者举了 graph、scientific photographs、OCR 以及基础特征识别的例子,认为旧版在简单照片处理流水线上的准确率只有大约 40%,因此更高分辨率可能会很有用。顺着这个方向,还有人猜测通用 multimodal LLM 也许会开始挤压专门的 computer vision 模型,因为它们更容易接入工作流。

[来源1]

发布日情绪与 side project 冲刺

除了技术讨论,评论区还有明显的情绪化反应:有人催着大家赶紧去做 side projects,因为又有几天“没被削弱的 agentic coding”窗口;也有人说自己只剩 3 天精力,或者在模型发布日会直接焦虑、逃离互联网。甚至有评论只是问“我该高兴吗”,或者干脆让模型自己回答。这部分更像社区习惯性的集体过山车:新模型带来短暂兴奋,也带来对旧问题复发的警惕。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

📚 术语解释

tokenizer: 把文本切成 token 的规则;新版会改变同样输入对应的 token 数。

xhigh: 介于 high 和 max 之间的 effort 档位,用来在推理质量和延迟之间折中。

agentic coding: 让模型自己读文件、调工具、分步骤完成编程任务的工作方式。

CLAUDE.md: 项目里的说明文件,Claude Code 会优先按其中的规则执行。

Codex: OpenAI 的编码代理/CLI,用于更稳定地做代码生成和多步操作。

Mythos-class models: Anthropic 讨论中的更强预览模型系列,常被拿来和公开版做对比。