🤨 Mistral Medium 3.5：128B dense可本地跑，性能/定价被质疑

308 9 天前 mistral.ai

🤨Mistral Medium 3.5：128B dense可本地跑，性能/定价被质疑

能塞进 Mac Studio，就算真的能用了吗？

🎯 讨论背景

Mistral 这次推出的是 Mistral Medium 3.5，一个 128B dense 的 open-weight 文本模型，官方还给了 256k context 和修改过的 MIT license。评论里有人从 Mistral API 里扒出它的模型名和别名，说明它既能直接在官方 API 调用，也被放进了面向 coding/agent 的产品线里。讨论的背景是近一年来 open models、Claude Sonnet、Qwen、Kimi、GLM、DeepSeek 之间的追赶与反追赶，焦点不再只是能否达到 SOTA，而是量化后能否在 Mac Studio、Strix Halo 或多卡 GPU 上以可接受速度运行。因为很多人默认读者懂 quantization、MoE、SWE-bench Verified 和 agentic coding 这些概念，所以评论几乎都在围绕性能、成本、可控性和商业可持续性做取舍。

📌 讨论焦点

本地部署与量化速度

不少人先看能不能本地跑，因为这个 128B dense 模型据称在 Q4 后大约 70GB，已经接近 Mac Studio 128GB 这类消费级机器能碰到的范围。但评论反复强调，能装下不等于能快到可交互：dense 模型每个 token 都要读全量权重，实际常常只有几 tok/s，远低于云端 GPU。有人提到 TurboQuant、IQ4、QAT 之类方法可能比传统 Q4 更保质，但质量损失、带宽上限和长上下文下的 K/V cache 依然是硬约束。也有人因此认为，dense 的意义是用更少 GPU 换更高上限，而不是和 MoE 比速度。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

基准分数 vs 真实场景

争议集中在 benchmark 和真实体验之间的落差。有人质疑宣传图里的分数来自原始权重或特殊格式，本地量化版、不同 sampler、不同上下文长度都会让结果偏移很多；另一些人则提醒，Sonnet 的 1M context、云端低延迟和更高吞吐并不是本地 256k 模型能直接对比的。还有人拿 SWE-bench Verified 的污染争议、SVG 绘图和浏览器/agent 任务举例，说这些才更接近实际工作流。于是对“超过最新 Sonnet”的说法，评论整体都比较谨慎。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

Agentic coding 与 frontier 差距

另一条主线是 agentic coding 时代到底还剩多少 frontier 优势。有人觉得 Claude Code、Codex、Gemini-cli、OpenCode 等工具链已经把默认提示词和 harness 的差异放大到和模型本身同等重要，换一套框架后未必能看出宣传里说的巨大鸿沟。也有人反驳说，真正的差距仍然体现在 context window、tool calling 和多步推理上，Claude 系列在长任务和自动改代码上还是更稳。讨论里顺带提到，很多人从 2024 年中后就把代码代理当成主用途了。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

对 Anthropic/Claude 的反感

帖子里还夹着很强的 Anthropic 反感情绪。有人因为 HERMES.md 相关的计费问题、错误收费和客服拒绝补偿而取消订阅，认为这说明闭源平台在自己系统出错时也不愿担责。评论把这当成“去掉 human in the loop”的反例：当平台连退款都要拖，用户更难相信它会在关键工作流里主动修 bug。结果就是一些人转向 OpenRouter、OpenCode 或直接找 open-weight 模型。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

非美中模型的价值

不少人支持 Mistral，并不是因为它碾压了 SOTA，而是因为它提供了一个非美国、非中国的可用选择。对欧洲和企业用户来说，能做 on-prem 部署、私有数据微调、以及和厂商谈价格杠杆，比榜单上的几分差距更重要。也有人补充，像 LG 的 EXAONE、Naver 的 HyperCLOVA X、Sarvam 或 UAE 的模型并非不存在，只是整体竞争力和可获得性都还不足。真正能被大规模托管和采购的，还是少数几家。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

中国开源模型的竞争压力

另一派则认为，这次 Medium 3.5 直接暴露了 Mistral 的落后：在价格、尺寸和实际表现上，它被 Qwen、Kimi、GLM 和 DeepSeek 一类中文 open models 压着打。评论里拿 Qwen3.6 27B、Qwen 35B A3B、GLM 5.1、DeepSeek V4 Flash、Kimi K2.5/K2.6 做对比，认为这些模型已经以更小的 footprint 提供更好的指标和更低的成本。即便有人认可所谓的 Pareto 目标——用 20% 成本换 80% 效果——也觉得如果定价比旧款 Mistral Large 更高，就很难算成功。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17]

产品体验、API 与定价

还有一组评论关注的是 Mistral 自家产品体验和商业定价。有人说 Le Chat、Mistral Vibe 的网页端受严格 CSP 限制，预览和 Canvas 经常不好用，Vibe CLI 在 Windows 上也有明显 bug；更离谱的是，模型有时能直接调用，却不在 /models 列表里，命名和别名都让人困惑。价格上，mistral-medium-3.5 比 mistral-medium-2508 贵了不少，用户因此担心旧的便宜档位会不会被替换掉，以及 $15/月或按 token 计费的模式能否撑住。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

📚 术语解释

dense model: 所有参数都参与推理的模型，通常更吃显存和带宽，但结构简单、质量上限高。

MoE: Mixture of Experts，推理时只激活部分专家，用更少计算换更高总参数。

Q4 / 4-bit quantization: 把权重压到 4-bit 的量化方式，能大幅省内存，但可能带来精度损失。

QAT: Quantization Aware Training，训练时就考虑量化误差，让低比特版本更接近原模型。

KV cache: 注意力机制缓存已生成的 key/value，长上下文时会占用大量显存。

Pareto-competitive: 常指用约 20% 的成本或体积，拿到约 80% 的效果。

SWE-bench Verified: 评估代码修复和 agent 能力的 benchmark，常被用来比较 coding model。

原文链接 Hacker News 讨论

AI Systems Business Mistral Medium 3.5 Mistral mistral.ai Vibe (remote agents)GPT-5.5 Hugging Face GGUF 4-bit quant 128B

News Hacker｜极客洞察