加载失败
这条讨论围绕一个演示:iPhone 17 Pro 通过 SSD/flash 流式读取权重,运行了 Qwen3.5-397B-A17B(Qwen 系列的 MoE 大模型,约 397B 总参数、17B 激活参数)。它延续了 Apple 2023 年论文 LLM in a Flash 以及后续社区实验的思路,核心不是把所有权重塞进 12GB RAM,而是让系统按需把专家层从存储拉到 compute units 上。评论里频繁出现 quantization、mmap、KV cache、page cache、MoE routing 这些术语,用来解释为什么这种方案能在消费级设备上“勉强跑起来”。争论焦点则是:这到底代表手机端 AI 的真正突破,还是只是一个速度和能耗都远离实用的工程展示。
不少评论把这次演示视为 Apple 2023 年 LLM in a Flash 思路的延续:不是把 397B 权重一次性塞进 12GB RAM,而是按 token 从 SSD/flash 里流式读出需要的专家层,再交给 GPU/compute units 计算。有人指出实际模型是 Qwen3.5-397B-A17B,真正激活的大约只有 17B 参数;之前的总结还提到每层只选 4 或 10 个 expert,而总共有 512 个 expert,所以节省效果非常明显。讨论里还提到 filesystem cache、mmap 和“Trust the OS”这类做法,让常用权重留在缓存里、冷门权重留在闪存里。还有人把它类比到 Cerebras 的 weights streaming,或者游戏引擎从 SSD 直接流资源的思路。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
最常见的反应不是惊叹而是吐槽:0.4–0.6 t/s 的输出速度太慢,等几十秒才吐一句模板化废话,远远达不到交互式使用。多位评论者提到手机和笔记本会很快发热、降频,iPad Air M2 之类设备几秒内就会烫起来;按手机约 0.5W 的日均功耗预算来看,大模型推理很容易把电池和散热都打爆。有人直言这种 larger-than-RAM 演示只适合研究、折腾或过夜跑批,放到日常对话几乎没有实用性。也有人拿它和云端服务对比,认为 100X 的延迟差距已经足够说明问题。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]
很多回复都在纠正对 MoE 的理解:并不需要把整个模型都常驻内存,因为每个 token 只会激活一小部分 expert。有人强调路由分布并不均匀,少用的 expert 可以长期待在 flash 上,OS page cache 还能把常用的 layer 留住,所以只缓存常见 expert 确实能省下一部分 RAM。另一派则认为在 12GB RAM 上跑 397B 模型,哪怕有稀疏性也还是在不停 swapping expert layers,本质上是把内存问题转成 I/O 问题。关于更激进的优化,讨论延伸到 learned prefetching 和把 routing 提前到前一层,但也有人提醒这会牺牲效果,没有免费午餐。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
有评论把焦点放在 Apple 的 unified memory 和高带宽设计上,认为 CPU、GPU、Neural Engine 共享同一块物理内存,再加上更快的 LPDDR5 和封装方式,是这类 demo 能成立的重要前提。也有人立刻反驳说手机 SoC 早就普遍是这种架构,PoP(Package on Package)和共享内存并不是 Apple 发明,旗舰 Android 机也有类似带宽。真正的争议在于 RAM 够不够:如果 AI 功能要在手机上变得好用,iPhone 可能得把 16GB、32GB 甚至更多 RAM 变成常态,而这会推高成本和售价。讨论进一步扯到 Apple 的 AI 商业策略、App Store 上的订阅收入,以及它是否会继续在 RAM 上抠门。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17] [来源18] [来源19]
不少人把问题放到更长周期:如果要把 100 t/s 级别的 on-device LLM 做出来,到底是模型会继续变轻,还是硬件会变得更专用?一部分人认为新架构、token 利用率提升和更聪明的 expert 调度,会让更小的模型在特定任务上足够好;另一部分则倾向于 ASIC、FPGA 或某种嵌入式 LLM silicon,觉得只有把模型直接做进硬件里才有真正的效率。也有人提到 SRAM 成本、persistent memory 以及类似 microSD 扩展形态,但对成本和灵活性都持怀疑态度。更务实的观点是,手机端先做 Siri、搜索结果处理、数学辅助和键盘预测这类小场景,而不是硬扛通用大模型。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16]
讨论里充满了 Douglas Adams 式的黑色幽默:有人把 400B 模型的慢吞吞输出和《银河系漫游指南》的 42 联系起来,吐槽 AI 再强也可能只会给出慢速而空洞的回答。另一类玩笑是“人类就喜欢被 AI 夸”,诸如“You are absolutely right”这类拟人化套话被反复拿来调侃,像是在给用户打 dopamine 而不是提供信息。还有人回忆起在旧 Android 上用 Termux、Ollama、Linux Deploy 跑小模型或 Bitcoin miner,“跑得很烂,但确实跑了”的折腾感被视为这类 demo 的真正乐趣。整体气氛是:大家既被口袋里的超级智能这个画面吸引,又对它的实用价值保持强烈怀疑。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17]
MoE(Mixture of Experts,混合专家模型): 一种稀疏模型结构,每个 token 只激活少数 expert,因此总参数很大但单次计算量较小。
quantization(量化): 把权重从高精度压到更低比特数(如 Q1/Q2/Q4/Q5/Q8),用更小内存和更低 I/O 换取速度与质量的折中。
mmap(memory-mapped I/O,内存映射): 把模型文件直接映射到虚拟地址空间,由操作系统按需分页读入,适合大模型权重的懒加载。
KV cache(键值缓存): 缓存注意力层的 key/value 状态,避免每生成一个新 token 都重算历史上下文。