加载失败
Claude.ai 是 Anthropic(Claude 大模型的开发公司)的聊天与编码入口,这次故障同时影响网页端、API 和 Claude Code(面向开发者的编码 CLI/agent)。状态页把主要原因指向 authentication service,而不是单纯的推理算力不足,所以评论里不断讨论是不是基础设施、部署或鉴权链路出了问题。很多公司已经把 Claude 当成工作流基础设施来用,甚至有企业每月花费达到数十万美金,因此任何停机都会直接影响开发节奏和预算。评论还延伸到 Bedrock、OpenRouter、local models 和多模型容灾,反映出大家已经在为不能只依赖单一 LLM 提供商做准备。
不少人把这次故障看成是长期可靠性问题,而不是一次偶发事故。有人说企业每月已经花到 $200k 以上,过去几个月的 outage 和糟糕 support 让管理层非常愤怒,根本不符合这么贵的服务应有的稳定性。还有人补充自己在 Claude Code、网页端或登录页上反复遇到不可用、模型选项消失,甚至误以为是 VPN 被封。更有评论指出,真正麻烦的是工作时段的 downtime,会直接打断日常开发。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
另一条主线是如何绕过 Anthropic 自己的入口。有人指出,如果本来就是按 API 计费,直接用 Anthropic API 并不划算,因为同一批模型也能通过 AWS、Google 或 OpenRouter 调用,通常可用性更高。企业版本质上也是 API pricing,有人提到可以拿到 Bedrock 的私有报价,但又会碰到 32k output limit 之类的限制。讨论还扩展到 prompt caching、adaptive thinking、Claude Code 以及 OpenCode、Pi 这类 harness 选择,焦点变成哪一层工作流最稳。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
不少人因此开始认真考虑 self-hosted 或本地 open models。有人分享团队已经在 8 张 H100 上跑 10 人规模的开发工作流,强调稳定、高吞吐、固定成本可控,而且隐私更好。也有人提醒,真正难的是把 memory system、工具调用、合规和安全都补齐,不然 local models 只是把托管成本换成了运维成本。比较现实的折中是 multi-model 备份:Anthropic、Codex、Gemini 轮流用,Claude 挂了就切换。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]
不少评论把矛头对准了工程和运维,而不是模型本身。status page 里提到的问题包括 authentication service,不像是 frontier model 计算问题,更像基础设施或发布流程出了毛病。有人要求更透明的 postmortem,至少说明是 IAM、DB、部署还是扩容出了问题,否则外界只能猜。也有人认为 Anthropic 可能在速度和稳定性之间主动偏向前者,先把新功能推出去,再接受偶发故障。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
这次停机也把 AI 是否在替代劳动的争论重新点燃了。原帖里提到团队每月花费相当于几十个工程师薪资,支持者认为只要整体产出提升,就能替代继续招人。反对者则认为,把人简化成输入输出会忽略 mentorship、协作和组织价值,尤其是不再招 junior 和 mid 之后,等于把劳动替代包装成效率优化。还有人把这和 RTO、裁员潮以及 AI 叙事联系起来,认为很多高层嘴上说增强,实际还是想减少 headcount。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15]
评论区还有大量拿 uptime 开涮的梗。有人把 98.59% 嘲讽成两九,有人说 one nine、nine fives,还有人把状态图颜色、歌词和午休梗揉在一起。更认真一点的说法是,按 24/7 口径看似还行,但按真实工作时段来算,可靠性可能更糟。整个话题因此变成了对 SLO 统计窗口、用户体感和品牌叙事之间落差的集体吐槽。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17]
prompt caching: 把固定前缀或重复上下文缓存起来,减少重复推理、延迟和 token 成本。
harness: 包在模型外面的工作流层,负责提示词、工具调用、权限和会话管理。
Claude Code: Anthropic 面向编程场景的 CLI/agent 工具,用来在终端里驱动代码生成和修改。
Bedrock: AWS 的托管基础模型服务,可通过云厂商渠道调用 Anthropic 模型。
OpenRouter: 把多家模型提供商聚合到一个 API 的中转平台,方便切换和对比模型。
SRE: Site Reliability Engineering,负责可用性、容量、发布和故障恢复的一套工程实践。
H100: NVIDIA 的高端 GPU,常用于大模型训练和推理。
nines of uptime: 用可用性中的‘几个 9’来衡量稳定性,例如 99.9% 叫三九。