News Hacker|极客洞察

676 2 小时前 openai.com
🤨GPT‑5.4 模型卡:1M 上下文、Codex 合并、版本混乱与道德争议
新模型又来了——谁来为它的战争罪负责?

🎯 讨论背景

这次讨论围绕发布的 GPT‑5.4(包含 ChatGPT 中的 GPT‑5.4 Thinking 与面向编码/代理的 Codex 更新)展开,公告强调实验性 1M 上下文窗口、Playwright (Interactive) 浏览器调试技能、以及工具检索(tool search)等能力。评论集中在四类问题:产品/UX 断层(例如文章嵌入的聊天框对游客不可用)、命名与版本管理的混乱及企业迁移成本、超大上下文与 compaction 的实际效果与计费细节,以及道德争议(国防/致命用途合同导致的用户抵制)。许多开发者还在权衡模型表现、配额与价格,并使用多个提供方(如 Claude/Opus、Gemini)并行对比以满足不同任务需求。

📌 讨论焦点

网站嵌入聊天框失效与测试缺失

多位评论指出文章底部的“Ask ChatGPT”嵌入框在未登录时无法正确处理外部链接:打开新会话并贴上文章链接后模型回复“无法直接访问外部 URL”。有人验证登录状态会生效,怀疑是权限/后端路由或刻意限制所致;也有评论认为这是不同团队维护博客与产品导致的 UX 断层。讨论延伸到测试与 QA:缺少对游客路径(guest flow)的集成测试被认为是根因之一,且有人讽刺用 LLM 替代传统 SDET 会造成反效果。还有人提出反讽性的解决思路(用 LLM 做端到端流测试),但也有人指出现实中往往缺乏资源去做完整的端到端自动化验证。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

模型命名与产品线混乱,企业迁移成本

评论普遍抱怨 5.x 系列分出多种子版本(如 GPT‑5.1 / 5.2 / 5.3‑Codex / 5.3‑Instant / 5.4 Thinking / 5.4 Pro),加上不同用途(codex、instant、thinking)与 dash 变体,给开发者识别能力、成本和定价带来认知负担。对比之下,Anthropic 的 Opus/Sonnet/Haiku 命名被称做更清晰的层级划分,Google 则被指“长期处在 preview/beta”导致企业对长期可用性缺乏信心。企业用户担心模型被频繁弃用或行为改变,切换模型需要逐条 prompt 测试与回归验证,增加了实际运维成本和风险。部分评论认为这既是快速发布以争夺 mindshare 的副作用,也是商业上不提供长期 SLA 的必然结果。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

超大上下文(1M)与 compaction 的权衡

GPT‑5.4 提供实验性的 1M 上下文窗口,但评论指出“名义值”与“有效上下文”常有差距:很多人观察到在接近窗口 75% 甚至 256K 后模型出现 token rot、性能下降或行为变差。文档与定价也复杂:超过约 272K 输入 token 会按 2x 输入和 1.5x 输出计费(不同页面与 CLI/plan 表述不一),而且 compaction(自动压缩/摘要旧上下文)可能造成重要信息丢失。社区希望看到更细粒度的 compaction 控制与可视化(例如树状视图、按块选择保留/汇总/丢弃),并指出部分逆向工程和大规模代码库分析确实能从更大上下文中受益,但同时需要更智能的上下文管理策略。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

实务选择:Codex、Claude、Gemini 的优劣与多模型并行

评论里有明显分裂:有人赞 Claude(Anthropic)在交互、简洁回复与产品体验上更好,但其高价与配额限制让部分用户转向 Codex 或并行使用多家服务。Codex 在编码任务上被多次称赞为更高效、配额更慷慨且在某些 agent/workflow 中更可靠;5.4 对少数人而言在写作、推理与代码编辑上显著改进,但也有基准或任务出现退步。现实工作流倾向于同时调用多家模型比对结果、用不同模型做规划与执行分工(例如用 Claude 写计划,用 Codex 执行代码),选择取决于成本、速率、配额与具体任务表现。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

道德争议与国防/杀伤性应用引发的抵制

大量评论聚焦公司对国防或可致死用途的合作:有人直接表态不再支持相关公司并取消订阅,提到模型“safety score for violence”变化以及担忧模型会被用于监视与目标选择。讨论既有情绪化谴责(称之为“帮助实施战争罪”或“不要和屠杀者做生意”),也有理性讨论:一些人指出若把模型用于致命自动化将带来不可接受的法律与伦理风险,另一些人提醒这是整个行业的问题而非单一公司。总体显现出技术能力进步与治理/道德界限间的张力,许多人因此在态度上更趋谨慎或选择转向其他厂商/本地开源模型。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

基准与宣传的透明度质疑

评论对官方展示的比较图表与 benchmark 方法提出质疑:批评点包括只与自家旧版本比较、未充分公开测试代码/日志、使用旧模型(如 GPT‑4o)为新模型做偏差/有害性评分,以及个别 benchmark 上出现回退(如 Terminal Bench 下降)。有人要求第三方 leaderboards(例如 ArtificialAnalysis、SWE‑bench)和可复现的测试套件来检验宣称的改进,强调“按任务的成本/效果”比单纯每 token 性能更重要。总体情绪是对自我声明结果持怀疑态度并呼吁更多可验证的公开评估数据。

[来源1] [来源2] [来源3] [来源4] [来源5]

代理化工具与 GUI 自动化(Playwright、工具搜索等)

公告展示了能以截图/坐标点击操控浏览器 UI 的演示(例如在 Gmail 中点击发送邮件)并提到 Playwright (Interactive) 作为可视化调试/回归测试技能,社区讨论快速集中在“为何不直接用 API”的问题上。支持 UI 自动化的观点是:许多网站没有可用或开放的 API,API 功能常被限流或削弱,UI 反而是最低通用分母;反对者则指出截图+点击更脆弱并易被防爬虫/反自动化检测影响。另一个重点是工具搜索(tool search)功能,可动态发现并加载可用工具,降低事先注册所有工具的复杂度,这在 agent 化场景被视为重要进步但也带来安全/权限挑战。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

定价与 Pro/计费复杂性引发的困惑

价格结构成为热议点:标准 GPT‑5.4 的 API 文档显示 $2.50/M(输入)和 $15/M(输出),但 Pro 版本标价高得多(示例为 $30/$180),且关于缓存定价、>272K token 的加价规则(2x/1.5x)写在不同页面上导致用户困惑。部分评论误以为页面有印刷错误,也有人指出即使单价更高新模型因为“更高效”可能在每项任务上更便宜。综合看法是:定价层级、缓存与大上下文溢出的额外计费会直接影响企业/爱好者的选型决策,促成“只用默认/Auto”或继续锁定旧模型以节省成本的保守策略。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

📚 术语解释

1M context window(1M 上下文窗口): 指模型一次性能接收的最大 token 数量,GPT‑5.4 提供实验性 ~1,050,000 token 支持;实际使用中超出某阈值(约 272K)会触发额外计费或 compaction,从而影响延续性与表现。

compaction(上下文压缩/自动摘要): 把历史对话或文档总结成更短的表示以节省上下文预算的过程;优点是延长会话寿命与降低成本,缺点是可能丢失细节并改变代理(agent)行为,评论中大量呼吁需要可视化与可控的 compaction 工具。

Codex: 在讨论中指代面向代码与 agent 工作流程的模型/工具套件(含 Codex CLI/桌面等 harness),通常被认为对编码任务、自动化和多步骤 agent 更友好且配额更慷慨。

Playwright (Interactive): Playwright 是一个浏览器自动化库;Playwright (Interactive) 在公告中作为 Codex 的实验性技能,用于可视化调试、自动化点击/截图与在开发过程中对 web/Electron 应用进行 playtesting。

AGENTS.md: 项目内用于向 agent 传达约束、优先级和风格偏好的文本或系统提示文件;评论讨论其在提高一致性与减少常见错误方面的作用以及某些研究显示自动生成的说明可能反而有害。

model card(模型卡): 一页式或简要文档,用来披露模型的评估基准、用途限制、安全/偏差考量和已知弱点,是一种透明度与合规实践。

tool search(工具检索/发现): 让模型在运行时查询可用工具列表并按需加载的机制,简化了 agent 调用外部服务或插件的流程,减少事先注册所有工具的负担。