🔥 DeepSeek V4：1M上下文开权重，数学代码强但中美争议大

1908 18 天前 api-docs.deepseek.com

🔥DeepSeek V4：1M上下文开权重，数学代码强但中美争议大

模型刚发，怎么先把中美世界大战吵上了？

🎯 讨论背景

DeepSeek 这次发布的是 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个 MoE（Mixture-of-Experts，混合专家架构）模型，并在 Hugging Face（开源模型平台）和 API docs 上同步放出权重与说明。官方强调 1M context length、hybrid attention、mHC（manifold-constrained hyper-connections）和 Muon optimizer 等优化，评论区则围绕它在数学推理、代码 agent、成本和本地部署上的实际表现展开。很多人把它和 Opus 4.6/4.7、GPT-5.5、Gemini 3.1 Pro、Kimi 2.6、GLM 5.1 等模型对比，也顺带讨论 OpenRouter（多模型 API 聚合平台）上的价格、限流和吞吐。中文公告还提到未来会借助 Huawei Ascend 950（华为的 AI 芯片/算力平台）降本，这让讨论迅速从模型能力扩展到中美 AI 供应链、open weights 争议、数据隐私和地缘政治。

📌 讨论焦点

数学/研究推理

有研究型用户把 DeepSeek V4 Pro 的最大思考模式拿来做概率统计、随机矩阵和自由概率等硕士/博士级题目，做法是先喂入 2–6 篇论文，再让模型给出严格证明草案。评论里普遍觉得它在第一次响应时不一定比 Gemini 更有灵感，但第二轮 follow-up 常能把证明骨架补得很完整，甚至接近可发表。另有用户在复杂代码重构和文本理解上也觉得它明显可用，说明它不只是跑分好看。整体感觉是它在“给出可推进研究的思路”这类任务上，比很多公开评测透露得更强。

[来源1] [来源2] [来源3] [来源4] [来源5]

benchmark 与真实体验分歧

不少人认为这轮讨论说明 benchmark 只能提供有限信号，因为不同任务、不同 harness、不同 provider 的差异太大。有人指出 SWE-bench Verified 已经污染，公开分数容易被训练集泄漏、过拟合或评测方式本身影响；也有人说自己更信任内部的实际工作流评测。还有人拿 DeepSeek 自己的内部结论说事，认为 V4-Pro-Max 只是接近 Opus 4.5/4.6，并没到“碾压”级别。结论通常落到一句话：代码、数学和长上下文任务里，模型差异更多体现为“能不能把活干完”而不是榜单名次。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

open weights vs open source

这次发布把“open source”与“open weights”之争又推到前台，因为权重已经放在 Hugging Face 上，而且有 MIT license。支持者觉得这已经足够重要：可以本地跑、可以微调、可以避免订阅和限额，实际价值比术语洁癖更大。反对者则强调训练数据、训练代码和可复现性都没公开，黑箱仍然是黑箱，最多只能说是开放权重。中间派则把这种分歧理解为 LLM 时代术语已经漂移，社区默认“开源”常常就是“能下载权重”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

价格与盈利模型

价格是另一条主线：有人直接对比了 DeepSeek V4 Pro 的 $1.74/1M input 和 $3.48/1M output，觉得这已经远低于很多 frontier labs 的定价。评论里分成两派，一派认为 API 和订阅至少在边际上是能赚钱的，真正烧钱的是训练、capex 和融资叙事；另一派则认为大厂在拿高价和限额做用户锁定。DeepSeek 被拿来和中国的国家目标、华尔街的 ROI 压力对比，许多人把它理解成一种“先低价占位，再靠规模和硬件下沉”的策略。也有人把这直接叫做 dumping，认为它是市场竞争而不是单纯技术进步。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

本地部署与量化门槛

本地部署的话题几乎和模型本身一样热。评论里反复计算 Flash 和 Pro 的内存占用、mixed FP4/FP8、49B active 参数、1M context 的 KV cache 开销，以及它们能否塞进 Mac Studio、双 96GB GPU 或者多卡服务器。比较乐观的人认为 Flash 级别已经接近可在高配消费机上尝试，悲观的人则认为 Pro 仍然是数据中心玩具，哪怕 SSD streaming 和 MoE sparsity 也只能换来“能跑”和“好用”之间的巨大差距。大家普遍同意一点：这类模型已经把“本地能不能试”与“本地能不能舒服地用”彻底分开了。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

agent/harness 适配

很多开发者根本不关心单次 benchmark，而是关心它能不能在 Claude Code（Anthropic 的代码代理）、OpenCode（开源代码代理）或 Pi 这类 harness 里稳定干活。评论里有人说 DeepSeek 已经给出 Anthropic-compatible 接法，Claude Code 里也能直接接；但也有人遇到工具调用不执行、read/write tool 误用、或者只生成 bash 命令却不真正运行的问题。于是讨论很快变成：到底是模型不听话，还是外层 harness、system prompt 和 JSON 解析器在捣乱。很多人最后的结论是，模型能力和工具链设计必须一起看，单看裸模型没意义。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

限流与可靠性

发布当天的另一个现实问题是可用性。Pro 版本被反复提到有 429、timeout、overload、rate limit，OpenRouter 上的吞吐也有人说只有三十几 tps，远没到“买来即用”的状态。有人指出官方自己也承认算力紧张，等 Ascend 950 supernodes 上线后价格和容量才会明显改善。于是出现一个很实用的分歧：评测到底该把 API 失败算作模型失败，还是单独记录为 provider reliability。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

中美技术主权

这场发布几乎立刻被读成一场 AI 供应链和技术主权之战。很多人把 DeepSeek 视为证明：不靠美国闭源大厂，也能做出接近 frontier 的 open-weight 模型，还能用更便宜的价格和更低的锁定风险分流需求。也有人提醒，训练阶段仍离不开 NVIDIA，所谓“全华为栈”更多还是未来规划或局部验证，不该把宣传语当事实。即便如此，评论里仍然不断出现一个核心判断：多一个强竞争者，总比单一 AI monopoly 好。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

隐私与审查

隐私和审查也是反复被提起的担忧。有人不愿把 PII 发到中国服务器，也有人反过来担心美国公司和政府的访问能力，认为两边都不值得无条件信任。与此同时，Tiananmen、Taiwan、India、1989、Gaza 等敏感话题在不同模型上的回避方式被拿来比较：DeepSeek 常见的是直接拒答，美国模型则更常被批评为带有话术和立场。最后留下来的共识不是“谁更安全”，而是如果你真在意这类风险，open weights + 本地/self-host 才是唯一稳妥路。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

文档与开发者体验

官方文档意外地赢得了不少好评，尤其是 thinking_mode 和 coding agents 的说明，很多人说它比 OpenAI/Google 那种“讲很多、落地很少”的文档更直接。也有人专门拿 Mistral 的 API docs 来类比，认为这种短、清楚、能立刻上手的写法非常适合开发者。批评主要集中在英文 proofreading、拼写错误，以及某些 tool-calling 示例没有真的解析 tool call，显得不够精致。总体来说，大家把这套文档看作“给会动手的人写的”，而不是面向公关的包装页。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

📚 术语解释

MoE（Mixture-of-Experts，混合专家架构）: 每个 token 只激活一部分专家网络，能把总参数做很大而不让推理成本线性爆炸。

open weights（开放权重）: 公开模型权重，方便本地运行和微调，但通常不等于公开训练数据与完整训练流程。

KV cache（键值缓存）: 注意力推理时保存中间状态的缓存，直接影响长上下文的显存占用和速度。

harness（代理执行框架）: 包在模型外面的工具层，负责文件读写、命令执行和工具调用，把模型接到真实工作流里。

quantization（量化）: 用更低精度表示权重或激活，减少内存/显存占用，是本地部署大模型的关键手段。

原文链接 Hacker News 讨论

AI DeepSeek v4 DeepSeek-V4-Pro DeepSeek Hugging Face Opus 4.6

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

数学/研究推理

benchmark 与真实体验分歧

open weights vs open source

价格与盈利模型

本地部署与量化门槛

agent/harness 适配

限流与可靠性

中美技术主权

隐私与审查

文档与开发者体验

📚 术语解释

📚 相似内容