🚨 OpenAI 宣布“Code Red”：Google 的 TPU + Gemini 赶超、预训练停滞与营收压力

691 93 天前 theverge.com

🚨OpenAI 宣布“Code Red”：Google 的 TPU + Gemini 赶超、预训练停滞与营收压力

训练停滞要靠给用户看广告来救公司吗？

🎯 讨论背景

OpenAI 在公开宣布“Code Red”后，社区集中讨论两条主线：一是技术——有传闻与分析指出 OpenAI 自 GPT‑4o 之后没有完成可广泛部署的全规模 pre‑training，用户也在交互中发现模型的 knowledge cutoff 较早；二是产业与商业化——Google 借助自研 TPU（用于大规模训练/推理的加速器）和 Gemini 模型在基准与集成层面发力，开源与中国厂商也在快速推进权重与实现。评论围绕算力成本（TPU vs GPU/CUDA）、蒸馏与后训练（SFT、RL、DPO）策略、产品 UX 与 hallucination、以及 OpenAI 的巨额数据中心与合作承诺（如与云/硬件厂商的长期合同）可能带来的财务风险展开，并讨论广告/订阅/企业销售三条变现路径的可行性。

📌 讨论焦点

预训练停滞与时效性问题

讨论中流行的观点是：OpenAI 可能长期没有完成可广泛部署的全规模 pre‑training（有评论援引 SemiAnalysis 的报道称自 GPT‑4o（2024年5月）后没有成功的全规模预训练）。用户也注意到不同版本返回的 knowledge cutoff（例如有用户在交互中遇到 2024 年中期的截止说明），这被解读为模型基础语料或训练跑次并不新鲜。也有人指出 GPT‑4.5 是一次放大的训练跑次并主要用于 pro 用户及作为 teacher 用于蒸馏而非直接大规模在线部署，另有观点认为 GPT‑5 更像是“model router/系统优化”而非从零训练出的新基模型。总体担忧集中在：如果基础预训练长期停滞，模型对新库、API 和近期事件的理解会落后，需靠 RAG/搜索来弥补而影响产品竞争力。

[来源1] [来源2] [来源3] [来源4] [来源5]

硬件与算力优势（TPU vs GPU）

不少评论把 Google 的追赶归因于它的自研 TPU（如讨论中的 TPUv7 / TPU fleet）和整套硬件堆栈，认为在大规模训练与推理上能带来更高效率和更低成本。围绕 Nvidia 的讨论聚焦两点：一是其高额毛利（被反复提及）让客户担心成本，二是即便市值巨大也不是等同于现成现金来无限扩产；有人指出制造芯片“硬件”并不难，但打造完整的软硬生态（CUDA、驱动、编译器、优化工具链）才是壁垒。还有观点认为各大厂（Google、Meta、Amazon 等）都在做自研硬件或优化，Nvidia 的优势会被竞争者通过规模与软件努力侵蚀，但短期内 Google 在 TPU+软件栈上的先发投入形成了显著优势。

[来源1] [来源2] [来源3] [来源4] [来源5]

商业化困境、烧钱与救助风险

评论广泛质疑 OpenAI 的商业可持续性：一方面有公开言论称年化 ARR 已达数十亿美元（如提到 200 亿美元），另一方面有大量关于长期资本承诺与巨额开支的担忧（帖子中列举了与 Stargate、Azure、AMD 等相关的数十亿乃至上百亿承诺）。讨论里有人强调“收入 ≠ 利润”，并指出若训练与数据中心扩张成本远超可持续毛利，合作伙伴（例如为其融资或提供基础设施的厂商）也会面临连带风险，甚至可能触发政府干预或救助。关于变现路径，社区分歧在于订阅/企业合同能否覆盖成本，或者是否会走向广告化（把 assistant 变成广告载体）——多数评论对把对话式助手作为广告载体能否成功持怀疑态度。

[来源1] [来源2] [来源3] [来源4]

竞争、护城河与捆绑威胁（Netscape 类比）

很多人用 Netscape 的历史类比当前局面：大厂可以把 LLM 功能捆绑到现有大流量产品（搜索、Gmail、Docs、Android）中，从而迅速蚕食独立厂商的使用场景。评论列举了 Google 将 Gemini 嵌入搜索与 Google One、以及 Google 巨量的用户基数和私有数据（YouTube、Gmail、Search queries）作为捆绑优势。与此同时，开源与中国厂商（如 DeepSeek、Qwen）快速发布权重，也在压低门槛，导致模型能力越来越像商品；但也有声音认为真正的护城河可能不是单纯模型质量，而是整合到用户日常工具的 UX 与平台锁定。

[来源1] [来源2] [来源3] [来源4]

产品体验与真实使用差异、幻觉问题

评论里大量基于一线体验指出：基准测试优势并不总等同于日常可用性。具体示例包括：内部/定制化文档下的检索或 fine‑tuned 接入也会产生“自信但错误”的回答（hallucination），多人报告在复杂编码任务、GLSL shader、或把学术伪代码转成可运行代码时模型失误频出。用户还注意到不同模型在子任务上强项不同（例如有的在前端/写序列化脚本表现好，有的在长文档检索或多语种上更强），并且 RAG/搜索被广泛用来弥补训练数据时效性。总之，实际产品体验受上下文管理、工具链（NotebookLM、Deep Research）和提示/路由策略的影响很大，非单一 benchmark 可概括。

[来源1] [来源2] [来源3] [来源4]

组织与管理："Code Red" 的意义与批评

许多评论把“Code Red”解读为高层公关或恐慌性的短期指令，批评其可能导致频繁的日常会议、临时人员调动和中层管理承压。有人援引《神话人月》式的教训——简单地增加会议和人手并不能按期交付复杂研究成果，反而会降低效率并伤害士气。另一类观点强调人才流失的长期影响，指出即便组织宣布动员，缺少能带领做出基础性突破的核心研究领导（有人提到核心研究者离职）也难以扭转局面。还有声音认为“Code Red”可能同时是推迟商业化（如广告/购物代理）以掩饰短期问题的策略性表态。

[来源1] [来源2] [来源3] [来源4]

训练流程、可重复性与后训练策略（蒸馏、RL 等）

技术讨论指出“预训练成功”并非简单能否跑完一次训练，而是要看是否在成本与效果上能显著超越现有模型；许多改动（架构、规模、硬件差异）需要从零训练并进行大量超参调优，训练过程中常见 loss 平台化、需回滚 checkpoint、反复尝试。评论还解释了常见流程：大基模型先做 pre‑training，随后用 SFT/RL（或 DPO、RLVR）进行 post‑training 来对齐和强化特定能力，而蒸馏（distillation）把大模型能力压缩到可推理的小模型以降低成本。因此有观点认为公司选择在 post‑training（优化路由、提示工程、RL）上投入而非频繁放大 pre‑training，属于成本/收益权衡。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

Pre‑training（预训练）: 训练大规模基础模型的第一阶段，用海量多样化语料做 next‑token 预测以建立模型的通用能力；后续通常用 mid‑training 或 post‑training（SFT、RL 等）补充任务或时效性。

TPU (Tensor Processing Unit): Google 自研的张量运算加速器，针对大规模矩阵乘法和机器学习优化。评论指出 Google 的 TPU fleet 能提供在训练与推理上的规模与成本优势。

蒸馏（Distillation）: 把大规模“teacher”模型的能力迁移并压缩到更小“student”模型的技术，常用于把昂贵的大模型能力转为成本更低、可部署的推理模型。

RAG（Retrieval‑Augmented Generation，检索增强生成）: 在生成前检索外部资料并把检索结果当作上下文输入到 LLM，从而弥补训练语料时效性或事实盲区，常用于提供最近信息或可核验来源。

model router（模型路由器）: 一个调度/路由系统，根据任务类型、成本或策略把请求分派到不同规模或专用子模型上；用来解释把“GPT‑5”当作系统级改进而非单一新基模型的做法。

Inference（推理）成本与延迟: 指服务端为生成模型输出在实时或离线场景按 token/吞吐/延迟所需的计算资源与花费，是定价与盈利能力的关键约束。

原文链接 Hacker News 讨论

AI Business Work OpenAI Google ChatGPT Gemini Sam Altman Nvidia TPU Anthropic Claude Microsoft

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

预训练停滞与时效性问题

硬件与算力优势（TPU vs GPU）

商业化困境、烧钱与救助风险

竞争、护城河与捆绑威胁（Netscape 类比）

产品体验与真实使用差异、幻觉问题

组织与管理："Code Red" 的意义与批评

训练流程、可重复性与后训练策略（蒸馏、RL 等）

📚 术语解释

📚 相似内容