🤨 M5 Pro/iOS 跑 100B+ MoE：TurboQuant KV 压缩、SSD Expert Streaming 被质疑缺 benchmarks

23 47 天前 github.com

🤨M5 Pro/iOS 跑 100B+ MoE：TurboQuant KV 压缩、SSD Expert Streaming 被质疑缺 benchmarks

连真实 benchmark 都没有，就敢叫突破？

🎯 讨论背景

这篇帖子讨论的是在 Apple Silicon 上本地运行超大 MoE 模型的工程尝试：把 TurboQuant 论文（Zandieh 等人，ICLR 2026）的 V3 Lloyd-Max codebooks 移植到 native C++，并将反量化融合进 Metal shaders（Apple GPU 的并行计算管线），以压缩 KV cache。作者声称在 M5 Pro 64GB MacBook Pro 上，通过 SSD Expert Streaming（从 NVMe 按需加载专家页）可以让约 60GB 的权重留在磁盘，只把 top-k active experts 送进 GPU，从而避免 macOS VM swapping 和 Watchdog kernel kills。帖子还提到同一套思路也在 iPhone 13 Pro 上测试了 Qwen 4B。评论区的重点不是“能不能跑”，而是这和 llama.cpp（一个流行的本地 LLM 推理项目）/flash-moe（一个 MoE 流式加载参考项目）相比究竟新增了什么，以及有没有足够的 tokens/s 和任务级 benchmark 证明收益。

📌 讨论焦点

缺少真实 benchmarks 的质疑

很多评论盯着一个核心问题：代码能跑不等于方案有价值，真正需要的是 tokens/s、不同 KV quantization level，以及实际任务表现的 benchmark。有人点名现有展示只给 perplexity 或 KLD 之类的间接指标，不足以证明对推理速度和效果真的有提升。也有人认为，如果没有这些数据，PR 只是把维护者的时间消耗掉。作者后来也表示只是先把 Mac 和 iOS 的 pipeline 接通，后续再补更多细节。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

vibe coding 的争议

围绕 “vibe coded” 的争论分成两派：一派认为从 paper 快速做出原型本身就是有价值的，半小时左右从论文到实现并不值得嘲笑。另一派则强调，原型如果既没被认真阅读、编辑，也没补上测试和基准，就像把初稿直接交给别人修改。评论里反复出现的标准是：至少要自己验证、说明收益，否则把生成代码扔给维护者就是在浪费社区时间。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

现有实现已覆盖，增量有限

也有人认为这套方案的增量并不大，因为 llama.cpp（一个流行的本地大模型推理项目）已经支持 KV compression，后续的 turbo quant PR 也可能被合并。对不少场景来说，现成的 q8 KV 压缩就够用了，没必要为了更激进的 3-bit 或 q4 复杂化实现。这个视角把重点放在实用性和成熟度：如果主流项目已经能稳定达到类似效果，新项目就必须证明自己确实更快、更省内存或更容易用。

[来源1]

expert streaming 的研究价值

对 expert streaming 本身感兴趣的评论则更偏研究味道：有人在追问能否固定一部分 experts、top-k 路由在多少个 forward pass 内仍然有效，以及是否能把子集专家直接训练进模型。有人提到，在小模型里把 knockout/subset experts 作为训练前提，反而可能得到更好的 loss。整体讨论指向一个 Pareto 曲线：GPU/统一内存占用、NVMe 带宽、以及推理计算开销之间怎么取舍。

[来源1] [来源2]

参考实现与 OS swap 取舍

有人追问这个项目是否借鉴了 flash-moe（一个 MoE 流式加载参考实现），回复确认它就是参考项目之一。关键差异是不使用 OS swap，因为 swap 会带来明显延迟，所以改成把完整权重留在 NVMe，再按需把活跃专家页流到 GPU。这样也解释了它为何强调在 Mac 这类统一内存设备上尽量绕开系统换页。

[来源1] [来源2] [来源3]

📚 术语解释

KV cache: Transformer 推理时保存 key/value 的缓存，压缩后可显著减少内存占用。

MoE: Mixture of Experts，一种每次只激活少量专家网络的模型结构，目标是扩大参数规模同时控制计算量。

top-k routing: MoE 中按得分只选择前 k 个 experts 参与计算的路由方式，决定哪些专家被加载或执行。

原文链接 Hacker News 讨论

AI Systems Hardware TurboQuant KV compression SSD Expert Streaming SwiftLM MoE SharpAI M5 Pro iOS llama.cpp flash-moe

News Hacker｜极客洞察