News Hacker|极客洞察

🔗macOS 26.2 用 RDMA over Thunderbolt 在 Mac 上实现快速 AI 集群
把几台 Mac 连起来就能取代 GPU 集群吗?

🎯 讨论背景

macOS 26.2 在系统层面添加了在 Thunderbolt 链路上使用 RDMA 的能力,使多台配备大量统一内存(unified memory)的 Apple Silicon Mac 能更低延迟地共享内存并做模型并行。社区工具(例如 MLX/ mlx‑lm、tinygrad 的探索)早已用 pipeline parallelism 在多台 Mac 上跑出超单机内存限制的模型实例(如 Kimi K2、DeepSeek R1),新特性把 tensor parallelism 的效率也带到桌面级硬件。讨论基于几个前提:tensor parallelism 能显著降低单节点内存带宽压力但严重依赖低延迟互连;Thunderbolt 的带宽/延迟、线缆质量和驱动/操作系统的支持会决定实际可扩展性;以及与数据中心级互连(NVLink、InfiniBand)和 GPU/HBM 的吞吐对比是评估可行性的关键。

📌 讨论焦点

并行策略与实现细节(tensor parallelism vs pipeline)

社区此前在多台 Mac 上主要用 pipeline parallelism,把模型的层按段分配到不同机器以突破单机内存上限,但这种做法只是能装更大的模型而不一定线性加速。macOS 26.2 把 RDMA over Thunderbolt 暴露出来,允许做真正的 tensor parallelism(包括所谓的 head parallelism):将每层张量分片到各节点,节点本地计算 Q/K/V 投影、rope、qk‑norm 等,然后通过 all‑reduce 汇总输出,从而在理想情况下接近 N 倍加速。解码和 prefill 都可以用 tensor parallelism,KV cache 会被按 shard 分散到节点,社区基准在 4 机、batch=1 的生成场景报告过约 3.5× 的加速,但频繁的跨节点通信和延迟仍是主要瓶颈。实现细节还需处理不同 attention 架构下的复制/分片策略以及更频繁的 collective 操作对延迟和带宽的敏感性。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

性能与成本权衡(内存容量 vs 吞吐)

评论里有明确的容量/吞吐权衡示例:在 $50k 级别,一个以 M3 Ultra 为基础的 Mac 集群能提供接近 3TB 的统一内存以运行 3T+ 参数模型(容量优先、吞吐率低,示例约 ~15 t/s),而同价位的 NVIDIA 工作站更倾向于高吞吐(例如 >80 t/s)但受 VRAM 上限(384GB)限制。要两者兼顾通常需要数据中心级硬件(比如 GH200 集群成本接近 $270k),并且 GPU 生态在原始带宽(HBM/GDDR)、NVLink/InfiniBand 互连和 FLOPS 上仍占优;苹果以 LPDDR5X 的统一内存换来更高容量和能效,但并不直接等同于高端 GPU 的计算吞吐。实际选择还要考虑功耗、TCO、机架/网络成本以及因拆分节点导致的网络开销(带宽和延迟),低成本的旧 Xeon/大内存方案虽然能跑大模型但吞吐极低。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

部署与运维痛点(机架化、线缆、驱动与远程管理)

把 Mac 当作可扩展集群在实际运维层面遇到许多工程问题:Mac Studio 的电源键与机箱并不利于标准机架化,虽有第三方机架套件(如 Sonnet、MyElectronics)但精度与成本有限。Thunderbolt 作为半永久互连对线缆质量、锁定机制和机械稳固性要求高(高端线缆/带锁接头更可靠),而且 TB 控制器实现会带来额外延迟;在无头/大规模部署上,macOS 的远程管理和系统升级流程不如 Linux 灵活(完整升级常需 GUI 或 MDM 工具,Jamf/开源 micromdm 可用作解决方案)。再者,企业级部署还受限于对 Linux/BSD 的支持、第三方高速 NIC 驱动和 CUDA 等生态缺失,这些都阻碍了从桌面原型向机架/数据中心级别的扩展。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

安全与启用门槛

有人担心把高带宽远程内存暴露为“插即用”的攻击面,但评论指出该功能并非默认打开:需要在恢复模式下运行显式命令(如 rdma_ctl enable)才能启用 RDMA,从而提供一个操作级别的安全门槛。尽管有这一保护,任何允许直接远程访问内存的能力仍需配套的物理接入策略、管理流程和审计以防滥用。安全考量会影响企业是否在生产环境启用该功能,尤其是在多租户或敏感数据场景下。

[来源1] [来源2]

生态、市场与爱好者影响

社区/爱好者已在用多台 Mac 做模型并行实验(MLX 团队示例、tinygrad/George Hotz 的尝试以及最近的 RDMA tensor 测试),这降低了个人和小型研究机构尝试超大模型本地推理的门槛。有人看到这是小型本地私有云或“AI appliance”的萌芽,苹果若把 M 系芯片、Metal 优化和托管服务结合起来,能在隐私敏感的企业/行业里抢到市场;但也有人担心钱多的公司会囤货、并且 macOS 在大规模工况下的可管理性与驱动支持仍是限制。总体上,这项功能在爱好者和小型部署中被看好,但要完全成为数据中心级替代方案还需解决生态、成本与可扩展性问题。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

📚 术语解释

RDMA: Remote Direct Memory Access(远程直接内存访问):允许一台机器在不经目标 CPU 的情况下直接读写另一台机器的内存,减少复制与延迟。macOS 26.2 将 RDMA 能力暴露于 Thunderbolt 链路上以支持低延迟的模型并行。

Tensor parallelism: 一种模型并行策略,把模型内部的张量(如线性层权重或 attention 的 head)在多个设备间切分并并行计算。它能在理想条件下接近 N 倍加速,但要求更频繁的跨节点通信与 collective 操作(例如 all‑reduce)。

Pipeline parallelism: 把模型的层按段分配到不同机器(第一台做前 L/N 层、第二台做下一个 L/N 层等),主要优点是能装下更大的模型但通常不会带来等比例的速度提升,因为层间存在序列依赖。

KV cache: Key/Value cache:在自回归 Transformer 解码过程中缓存此前生成 token 的 K、V 张量以加速后续计算。做分布式 tensor parallelism 时,KV cache 也会被切片到各节点,直接影响解码延迟与内存分布策略。

All‑reduce: 一种集体通信(collective)操作,用于将各节点的张量按元素规约(例如求和)并把结果广播回所有节点,常用于合并 tensor‑parallel 各分片的中间或输出结果,频繁使用时对延迟非常敏感。

Thunderbolt 5 (TB5): Thunderbolt 5(TB5):最新一代外设互连规格,标称带宽可达 80 Gbps,但实际常以 PCIe4×4 形式(≈64 Gbps)出现并会因线缆、控制器与复用 DisplayPort 而有带宽/延迟变化。做 RDMA 或分布式推理时需考虑这些实现细节与开销。