🤔 HipKittens：揭示 AMD MI3xx/ROCm 内核优化与生态困境

134 182 天前 hazyresearch.stanford.edu

🤔HipKittens：揭示 AMD MI3xx/ROCm 内核优化与生态困境

硬件做得漂亮，谁来收拾软件烂摊？

🎯 讨论背景

HipKittens 话题围绕一个用于 AMD GPU 内核性能研究的代码库展开，评论引用了 ROCm（AMD 的 GPU 软件栈）、MI300X/MI350X（AMD Instinct 数据中心 GPU）和 MLPerf（机器学习基准套件）等具体例子来说明现状。有人披露与 AMD 的合同计划在 MI350X 上用 MLPerf 训练 Llama 405B（大规模语言模型），并报告在 PyTorch+ROCm 下运行体验较前几年好转。讨论把焦点放在硬件潜力与软件/生态差距之间的张力，比较 CUDA（NVIDIA 的软件生态）多年积累的库与工具以及 InfiniBand（高性能互连）等硬件/网络优势。评论还拓展到企业管理和激励机制问题，认为制度性缺陷限制了 AMD 在软件与生态上快速赶超的能力。

📌 讨论焦点

ROCm 与 AMD GPU 实际可用性改善

多名评论者指出 ROCm（AMD 的 GPU 软件栈）与 MI300X/MI350X 等 Instinct 卡的可用性近年来明显改善。有人披露与 AMD 的合同，在 MI350X 上用 MLPerf 训练 Llama 405B，并报告 nanochat 在 MI300X 上能顺利运行，且 MI350X 机器被描述为稳定。社区和部分服务商（如 NeoCloud）反馈出厂体验比三年前好很多，ROCm 的 pre-alpha 'Rock' 安装器也被提为改善点。总体看法是硬件潜力存在且软件在追赶，但仍需大量投资与生态建设才能真正缩小与 NVIDIA 的差距。

[来源1] [来源2] [来源3] [来源4] [来源5]

AMD 仍落后：软件投入、组织与管理问题

大量评论将 AMD 落后的主要原因归结为公司对软件投入不足与组织问题：软件测试、性能回归检测不完善、编译器和驱动维护薄弱，以及部分 DevOps 外包导致质量控制不足。评论里提到 AMD 往往对软件只付出最低成本、基准和回归体系不完整、薪酬低导致人才流失并催生“履历驱动”的重复造轮子行为。讨论延伸到高层策略：有人建议大幅提高薪酬并重组管理层以吸引并留住顶级工程师，但也有人警告粗暴裁员与同时大幅调薪会引发办公室政治与可执行性问题。总的观点是硬件潜力存在但组织文化、激励和工程实践仍是阻碍其赶超的关键因素。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

CUDA 生态与 NVIDIA 护城河的争论

关于 NVIDIA 是否拥有长期护城河，评论分歧明显：一方面有人认为像 Transformers 这样的少数算法已收敛，理论上降低了追赶门槛；另一方面多数人强调 CUDA 多年积累的大量库、工具链与云服务合作构成了实实在在的壁垒。历史经验（如 OpenCL 未能替代 CUDA）和 CUDA 自 2004 年起的生态沉淀被引用来说明简单的兼容层不足以迅速改变格局。网络互连（InfiniBand）和硬件层面的带宽/互联优势也被当作 NVIDIA 的重要差异化因素，尽管有观点认为在推理场景中这些要求没有那么严格。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

训练与推理差异：推理更易标准化、门槛更低

多条评论区分了训练与推理的不同：训练仍由 NVIDIA 与 Google 主导，需要更复杂的硬件互联和大量软件优化，而推理在很多场景下可被降解为线性代数/BLAS 问题。支持者认为只要有一个轻量且覆盖 80% 用例的推理 API，AMD 或其他厂商就能在推理市场快速获得竞争力；反对者提醒 Transformer 的具体实现差异仍会带来真实的优化难题。因此结论是推理更容易标准化与替代，但训练端的壁垒依旧更高且更倚重硬件与互联。

[来源1] [来源2] [来源3] [来源4] [来源5]

HipKittens 与内核级诊断：暴露 LLVM 后端与 kernel 问题

HipKittens 被评论视为研究 AMD 内核与 LLVM 后端问题的有价值代码库，能直接展示生成的 kernel 在性能或兼容性上的缺陷。有人指出社区曾提交优化的 ROCm kernels PR 被关闭，说明官方合流与第三方优化之间存在摩擦；另有用户抱怨 Composable-Kernel（CK）在编译时占用大量内存导致不可恢复的 OOM，反映出开发工具链与编译资源问题。因此社区工具既是定位后端问题的手段，也是暴露 ROCm 社区对外部贡献处理能力不足的证据链，便于对比 CUDA 对应工具链的成熟度。

[来源1] [来源2] [来源3]

📚 术语解释

ROCm: ROCm（AMD 的开源 GPU 计算平台与驱动软件栈），用于在 Linux 环境上支持 PyTorch 等深度学习框架并驱动 AMD Instinct 数据中心 GPU。

HipKittens: HipKittens（项目名），一个用于 AMD GPU 上的 kernel/性能研究代码库，用来分析 HIP/LLVM 后端生成内核的性能与兼容性问题，类似社区用于 CUDA 的内核示例集。

CUDA: CUDA（NVIDIA 的并行计算平台与编程模型），拥有大量优化过的库、工具链与生态支持，是当前数据中心 GPU 软件生态的主流。

MI300X / MI350X: MI300X / MI350X（AMD Instinct 系列的数据中心 GPU 型号），面向训练与推理工作负载，是讨论中测试与部署的硬件平台示例。

LLVM backend: LLVM backend（编译器后端），指将中间表示（IR）编译成目标 GPU 指令的组件，其质量直接影响 kernel 的性能与正确性，评论中用来说明 AMD 生成代码的短板。

InfiniBand: InfiniBand（高性能低延迟的数据中心互连网络技术），常用于多 GPU 训练集群以提供大带宽与低延迟，是被讨论为 NVIDIA 在互联层面的优势之一。

Composable-Kernel (CK): Composable-Kernel（CK），一个用于组合和生成 GPU 内核的框架/库，常用于内核级优化实验，但编译时可能占用大量内存并引发资源问题。

原文链接 Hacker News 讨论

AI Programming Hardware HipKittens AMD CUDA NVIDIA Transformers Hazy Research InfiniBand Google TPU

News Hacker｜极客洞察