加载失败
DeepSeek 这次发布的是 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个 MoE(Mixture-of-Experts,混合专家架构)模型,并在 Hugging Face(开源模型平台)和 API docs 上同步放出权重与说明。官方强调 1M context length、hybrid attention、mHC(manifold-constrained hyper-connections)和 Muon optimizer 等优化,评论区则围绕它在数学推理、代码 agent、成本和本地部署上的实际表现展开。很多人把它和 Opus 4.6/4.7、GPT-5.5、Gemini 3.1 Pro、Kimi 2.6、GLM 5.1 等模型对比,也顺带讨论 OpenRouter(多模型 API 聚合平台)上的价格、限流和吞吐。中文公告还提到未来会借助 Huawei Ascend 950(华为的 AI 芯片/算力平台)降本,这让讨论迅速从模型能力扩展到中美 AI 供应链、open weights 争议、数据隐私和地缘政治。
有研究型用户把 DeepSeek V4 Pro 的最大思考模式拿来做概率统计、随机矩阵和自由概率等硕士/博士级题目,做法是先喂入 2–6 篇论文,再让模型给出严格证明草案。评论里普遍觉得它在第一次响应时不一定比 Gemini 更有灵感,但第二轮 follow-up 常能把证明骨架补得很完整,甚至接近可发表。另有用户在复杂代码重构和文本理解上也觉得它明显可用,说明它不只是跑分好看。整体感觉是它在“给出可推进研究的思路”这类任务上,比很多公开评测透露得更强。
不少人认为这轮讨论说明 benchmark 只能提供有限信号,因为不同任务、不同 harness、不同 provider 的差异太大。有人指出 SWE-bench Verified 已经污染,公开分数容易被训练集泄漏、过拟合或评测方式本身影响;也有人说自己更信任内部的实际工作流评测。还有人拿 DeepSeek 自己的内部结论说事,认为 V4-Pro-Max 只是接近 Opus 4.5/4.6,并没到“碾压”级别。结论通常落到一句话:代码、数学和长上下文任务里,模型差异更多体现为“能不能把活干完”而不是榜单名次。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
这次发布把“open source”与“open weights”之争又推到前台,因为权重已经放在 Hugging Face 上,而且有 MIT license。支持者觉得这已经足够重要:可以本地跑、可以微调、可以避免订阅和限额,实际价值比术语洁癖更大。反对者则强调训练数据、训练代码和可复现性都没公开,黑箱仍然是黑箱,最多只能说是开放权重。中间派则把这种分歧理解为 LLM 时代术语已经漂移,社区默认“开源”常常就是“能下载权重”。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
价格是另一条主线:有人直接对比了 DeepSeek V4 Pro 的 $1.74/1M input 和 $3.48/1M output,觉得这已经远低于很多 frontier labs 的定价。评论里分成两派,一派认为 API 和订阅至少在边际上是能赚钱的,真正烧钱的是训练、capex 和融资叙事;另一派则认为大厂在拿高价和限额做用户锁定。DeepSeek 被拿来和中国的国家目标、华尔街的 ROI 压力对比,许多人把它理解成一种“先低价占位,再靠规模和硬件下沉”的策略。也有人把这直接叫做 dumping,认为它是市场竞争而不是单纯技术进步。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
本地部署的话题几乎和模型本身一样热。评论里反复计算 Flash 和 Pro 的内存占用、mixed FP4/FP8、49B active 参数、1M context 的 KV cache 开销,以及它们能否塞进 Mac Studio、双 96GB GPU 或者多卡服务器。比较乐观的人认为 Flash 级别已经接近可在高配消费机上尝试,悲观的人则认为 Pro 仍然是数据中心玩具,哪怕 SSD streaming 和 MoE sparsity 也只能换来“能跑”和“好用”之间的巨大差距。大家普遍同意一点:这类模型已经把“本地能不能试”与“本地能不能舒服地用”彻底分开了。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
很多开发者根本不关心单次 benchmark,而是关心它能不能在 Claude Code(Anthropic 的代码代理)、OpenCode(开源代码代理)或 Pi 这类 harness 里稳定干活。评论里有人说 DeepSeek 已经给出 Anthropic-compatible 接法,Claude Code 里也能直接接;但也有人遇到工具调用不执行、read/write tool 误用、或者只生成 bash 命令却不真正运行的问题。于是讨论很快变成:到底是模型不听话,还是外层 harness、system prompt 和 JSON 解析器在捣乱。很多人最后的结论是,模型能力和工具链设计必须一起看,单看裸模型没意义。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
发布当天的另一个现实问题是可用性。Pro 版本被反复提到有 429、timeout、overload、rate limit,OpenRouter 上的吞吐也有人说只有三十几 tps,远没到“买来即用”的状态。有人指出官方自己也承认算力紧张,等 Ascend 950 supernodes 上线后价格和容量才会明显改善。于是出现一个很实用的分歧:评测到底该把 API 失败算作模型失败,还是单独记录为 provider reliability。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
这场发布几乎立刻被读成一场 AI 供应链和技术主权之战。很多人把 DeepSeek 视为证明:不靠美国闭源大厂,也能做出接近 frontier 的 open-weight 模型,还能用更便宜的价格和更低的锁定风险分流需求。也有人提醒,训练阶段仍离不开 NVIDIA,所谓“全华为栈”更多还是未来规划或局部验证,不该把宣传语当事实。即便如此,评论里仍然不断出现一个核心判断:多一个强竞争者,总比单一 AI monopoly 好。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
隐私和审查也是反复被提起的担忧。有人不愿把 PII 发到中国服务器,也有人反过来担心美国公司和政府的访问能力,认为两边都不值得无条件信任。与此同时,Tiananmen、Taiwan、India、1989、Gaza 等敏感话题在不同模型上的回避方式被拿来比较:DeepSeek 常见的是直接拒答,美国模型则更常被批评为带有话术和立场。最后留下来的共识不是“谁更安全”,而是如果你真在意这类风险,open weights + 本地/self-host 才是唯一稳妥路。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
官方文档意外地赢得了不少好评,尤其是 thinking_mode 和 coding agents 的说明,很多人说它比 OpenAI/Google 那种“讲很多、落地很少”的文档更直接。也有人专门拿 Mistral 的 API docs 来类比,认为这种短、清楚、能立刻上手的写法非常适合开发者。批评主要集中在英文 proofreading、拼写错误,以及某些 tool-calling 示例没有真的解析 tool call,显得不够精致。总体来说,大家把这套文档看作“给会动手的人写的”,而不是面向公关的包装页。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
MoE(Mixture-of-Experts,混合专家架构): 每个 token 只激活一部分专家网络,能把总参数做很大而不让推理成本线性爆炸。
open weights(开放权重): 公开模型权重,方便本地运行和微调,但通常不等于公开训练数据与完整训练流程。
KV cache(键值缓存): 注意力推理时保存中间状态的缓存,直接影响长上下文的显存占用和速度。
harness(代理执行框架): 包在模型外面的工具层,负责文件读写、命令执行和工具调用,把模型接到真实工作流里。
quantization(量化): 用更低精度表示权重或激活,减少内存/显存占用,是本地部署大模型的关键手段。