🤯 iPhone 17 Pro 跑起 400B MoE LLM：量化+SSD流式，仍很慢

628 45 天前 twitter.com

🤯iPhone 17 Pro 跑起 400B MoE LLM：量化+SSD流式，仍很慢

0.6 token/s 也算实用 AI？

🎯 讨论背景

这篇帖子的起点是 Anemll（一个做本地 LLM 推理的开源项目）在 iPhone 17 Pro 上演示运行 Qwen3.5-397B-A17B（Qwen 系列的 MoE 大模型，总参数接近 400B）的本地推理。这个演示借鉴了 Apple 2023 年论文 “LLM in a flash”（用闪存/SSD 流式读取权重，而不是一次性装进 RAM），再叠加极低比特量化和 MoE 稀疏激活来压缩工作集。iPhone 17 Pro 依赖 Apple Silicon 的 unified memory architecture（CPU/GPU/Neural Engine 共享内存）和较高的内存/存储带宽，但它只有 12GB RAM，所以更像是在展示“如何勉强跑起来”。评论区因此围绕 MoE 解释、速度和功耗、以及 local vs cloud 的路线选择展开。

📌 讨论焦点

MoE、量化与闪存流式加载的技术拆解

很多评论把标题里的“400B”拆开来看：Qwen3.5-397B-A17B 是 MoE 模型，总参数接近 400B，但每个 token 只激活一小部分专家，实际活跃参数被估算在 17B 到 80B 左右。大家还指出，这个演示依赖极端量化和从 flash/SSD 按需流式读取专家层，而不是把完整权重塞进 RAM。也就是说，它展示的不是“手机完整装下了 400B 模型”，而是通过稀疏路由和存储带宽把工作集压到勉强可跑的程度。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

能跑但几乎不可用的性能与功耗问题

另一大观点是：这东西“能跑”不等于“好用”。评论反复提到速度只有 0.4–0.6 token/s，哪怕更强的 Mac 也常常只是 10–15 TPS，交互延迟高到几乎失去意义。还有人从电池和散热角度质疑，认为手机的时间平均功耗预算太小，连续推理会很快发热、降频，甚至把手机变成暖手宝。结论普遍是：这是很酷的 PoC，但离日常实用还差得远。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

Apple 硬件、统一内存与移动 SoC 的意义

不少评论认为，这个 demo 之所以能成立，和 Apple 的 unified memory architecture、高内存带宽、LPDDR5 以及 A19/A19 Pro 的本地 AI 能力有关。也有人补充说，Neural Engine 和 GPU 上的 tensor 处理在这里有帮助，手机 SoC 共享内存本来就是移动平台的常见设计。反方则强调，PoP 封装、共享内存、Vulkan/Metal 这些并不是 Apple 独有，很多 Android 和其他移动芯片也早就这么做了。争议焦点不在于“有没有硬件基础”，而在于 Apple 会不会继续把 RAM 和带宽堆到足够支持更实用的本地 AI。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

本地推理、开源生态与云端路线之争

一些评论把它看成 local/open weights 路线的象征：如果个人设备上能覆盖大多数用例，数据中心和 proprietary models 的工业链条就会被削弱。反对者则提醒，训练 400B 级模型仍然需要海量 compute，手机不可能承担训练；更现实的路线可能是本地推理和开放云基础设施并行，而不是只押注 edge。还有人从商业角度看，Apple 真正擅长的是分发和 App Store 变现，即使重模型不在本地，Apple 也能从 AI 生态里赚钱。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

调侃、怀疑与“夸夸机”式反讽

评论区还有大量调侃：模型慢慢吐出“you are absolutely right”之类的奉承话，被拿来和 Douglas Adams、Zootopia 的 sloth、甚至《The Great Automatic Grammatizator》相互类比。有人把标题误读成“昂贵手机”，或直接拿“400 bytes should be enough for anybody”开玩笑，把这场演示当成对 AI 炫技文化的反讽。这些玩笑背后其实是在强调同一个点：参数规模和“看起来很聪明”不等于有实际价值。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

📚 术语解释

MoE（Mixture of Experts，专家混合）: 一种稀疏模型架构，每个 token 只路由到少数几个 expert，所以总参数很大，不代表每次计算都要用满全部参数。

量化（quantization）: 把模型权重压缩到更低 bit 数，如 Q1/Q2/Q4/Q8，以减少内存和带宽占用，但通常会牺牲部分精度。

KV-cache: 保存注意力层的 Key/Value 状态，让后续 token 不必重复计算，能显著提升生成效率。

mmap（memory-mapped file）: 把模型文件直接映射到地址空间，按需从磁盘/SSD 取页，减少一次性加载到 RAM 的需求。

unified memory architecture: CPU、GPU、Neural Engine 共享同一内存池的架构，减少拷贝，但也让带宽变成关键瓶颈。

Flash/SSD streaming: 从闪存或 SSD 按需读取权重或 expert 层，而不是把整个模型常驻在 RAM 里。

原文链接 Hacker News 讨论

AI Hardware Systems iPhone 17 Pro 400B LLM MoE LLM in a flash Apple SSD streaming Anemll

News Hacker｜极客洞察