加载失败
这篇帖子的起点是 Anemll(一个做本地 LLM 推理的开源项目)在 iPhone 17 Pro 上演示运行 Qwen3.5-397B-A17B(Qwen 系列的 MoE 大模型,总参数接近 400B)的本地推理。这个演示借鉴了 Apple 2023 年论文 “LLM in a flash”(用闪存/SSD 流式读取权重,而不是一次性装进 RAM),再叠加极低比特量化和 MoE 稀疏激活来压缩工作集。iPhone 17 Pro 依赖 Apple Silicon 的 unified memory architecture(CPU/GPU/Neural Engine 共享内存)和较高的内存/存储带宽,但它只有 12GB RAM,所以更像是在展示“如何勉强跑起来”。评论区因此围绕 MoE 解释、速度和功耗、以及 local vs cloud 的路线选择展开。
很多评论把标题里的“400B”拆开来看:Qwen3.5-397B-A17B 是 MoE 模型,总参数接近 400B,但每个 token 只激活一小部分专家,实际活跃参数被估算在 17B 到 80B 左右。大家还指出,这个演示依赖极端量化和从 flash/SSD 按需流式读取专家层,而不是把完整权重塞进 RAM。也就是说,它展示的不是“手机完整装下了 400B 模型”,而是通过稀疏路由和存储带宽把工作集压到勉强可跑的程度。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
另一大观点是:这东西“能跑”不等于“好用”。评论反复提到速度只有 0.4–0.6 token/s,哪怕更强的 Mac 也常常只是 10–15 TPS,交互延迟高到几乎失去意义。还有人从电池和散热角度质疑,认为手机的时间平均功耗预算太小,连续推理会很快发热、降频,甚至把手机变成暖手宝。结论普遍是:这是很酷的 PoC,但离日常实用还差得远。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
不少评论认为,这个 demo 之所以能成立,和 Apple 的 unified memory architecture、高内存带宽、LPDDR5 以及 A19/A19 Pro 的本地 AI 能力有关。也有人补充说,Neural Engine 和 GPU 上的 tensor 处理在这里有帮助,手机 SoC 共享内存本来就是移动平台的常见设计。反方则强调,PoP 封装、共享内存、Vulkan/Metal 这些并不是 Apple 独有,很多 Android 和其他移动芯片也早就这么做了。争议焦点不在于“有没有硬件基础”,而在于 Apple 会不会继续把 RAM 和带宽堆到足够支持更实用的本地 AI。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
一些评论把它看成 local/open weights 路线的象征:如果个人设备上能覆盖大多数用例,数据中心和 proprietary models 的工业链条就会被削弱。反对者则提醒,训练 400B 级模型仍然需要海量 compute,手机不可能承担训练;更现实的路线可能是本地推理和开放云基础设施并行,而不是只押注 edge。还有人从商业角度看,Apple 真正擅长的是分发和 App Store 变现,即使重模型不在本地,Apple 也能从 AI 生态里赚钱。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
评论区还有大量调侃:模型慢慢吐出“you are absolutely right”之类的奉承话,被拿来和 Douglas Adams、Zootopia 的 sloth、甚至《The Great Automatic Grammatizator》相互类比。有人把标题误读成“昂贵手机”,或直接拿“400 bytes should be enough for anybody”开玩笑,把这场演示当成对 AI 炫技文化的反讽。这些玩笑背后其实是在强调同一个点:参数规模和“看起来很聪明”不等于有实际价值。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
MoE(Mixture of Experts,专家混合): 一种稀疏模型架构,每个 token 只路由到少数几个 expert,所以总参数很大,不代表每次计算都要用满全部参数。
量化(quantization): 把模型权重压缩到更低 bit 数,如 Q1/Q2/Q4/Q8,以减少内存和带宽占用,但通常会牺牲部分精度。
KV-cache: 保存注意力层的 Key/Value 状态,让后续 token 不必重复计算,能显著提升生成效率。
mmap(memory-mapped file): 把模型文件直接映射到地址空间,按需从磁盘/SSD 取页,减少一次性加载到 RAM 的需求。
unified memory architecture: CPU、GPU、Neural Engine 共享同一内存池的架构,减少拷贝,但也让带宽变成关键瓶颈。
Flash/SSD streaming: 从闪存或 SSD 按需读取权重或 expert 层,而不是把整个模型常驻在 RAM 里。