News Hacker|极客洞察

140 182 天前 tomshardware.com
🤔NVIDIA拟从卖GPU转向售卖L10一体化服务器与数据中心服务
他们要卖服务器还是要彻底占领整座数据中心?

🎯 讨论背景

报道称NVIDIA正准备把更多系统子组件从代工伙伴手中收回,开始直接出售高度一体化的机架托盘(报道以VR200平台和所谓的L10集成为例,涉及Vera CPU、Rubin GPUs与液冷冷板等)。这建立在NVIDIA已有DGX、NVL72产品与部分软件栈(如DGX OS)以及其对GPU云租赁公司的投资(例如CoreWeave)之上。评论以Google的TPU业务和IBM主机历史为参照,讨论价值链捕获、客户锁定与监管风险,同时关注BMC、Aptio、布线与机柜液冷等一线工程可交付性问题。整体争论既有对利润与控制权的商战角力,也有对工程实现和生态反应的现实担忧。

📌 讨论焦点

澄清:L10 一体化计算盘与现有产品差异

多条评论指出报道的核心并非说NVIDIA从未卖过服务器——他们已有DGX和NVL72等成品。关键变化在于从此前的部分预装(例如GB200/“Bianca”主板的L7–L8集成)升级到所谓的L10级别:以VR200为起点,把整套L10 compute tray作为预装模组出售,包含Vera CPU、Rubin GPUs、内存、NIC、电源供给、midplane接口和液冷冷板等,并作为经过测试的交付单元。这意味着超大规模客户和ODM不再必须自行做主板、布线和冷却系统,NVIDIA将把更多子系统变成可直接部署的单元,从而改变供货与部署的边界。

[来源1] [来源2] [来源3]

垂直整合与价值链捕获

多位评论认为这是NVIDIA长期垂直整合策略的延续:公司有意把硬件、固件、驱动、软件乃至托管服务连成一体,以获取比单卖GPU更高的利润率。讨论里提到在芯片产能受限情况下,直接把整机或整盘卖给终端可以把中间商的价值捕获過来,即便不增加GPU产量也能提升每片芯片的营收。有人回忆NVIDIA早年就有将计算做成服务的想法,并指出公司已对CoreWeave等GPU云服务有投资,说明卖整机、卖托管或租赁都在考虑范围内。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

风险:与客户竞争、锁定与监管担忧

评论警告,与其平台上的客户直接竞争存在明显风险:如果NVIDIA不再保持中立,ODM、系统集成商与云厂可能转向替代供应商或推动开放硬件生态以规避被锁定。有人以Google TPU为对照,指出客户越来越警惕“把生意建在别人土地上”的风险,担心一旦被锁定价格或供给会被操纵。另有评论强调并购路径受监管约束严重,收购主要竞争对手或大厂并非现实选项,这会影响NVIDIA选择自建还是与合作伙伴并行的战略权衡。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

代工/ODM与专业化分工的合理性

有人解释为何多家公司会做看似相同的显卡或机架:主板与系统集成的业务与芯片设计本质不同,ODM/OEM(如SuperMicro、ASRock等)擅长与DRAM厂商、渠道和规模化生产打交道,因此在低利润环境下分工更有效。让每家芯片厂都去做系统设计反而效率低下,市场上保持多个代工商能带来竞争与成本优势。NVL72等机架存在多种‘口味’也表明系统级定制仍有需求,NVIDIA若全面自研整机会压缩这些专业厂商的生存空间。

[来源1] [来源2] [来源3] [来源4]

技术质量、软件栈与运维可行性疑虑

部分评论对NVIDIA在大规模系统集成与运维上的能力表示怀疑,举例其在BMC(Baseboard Management Controller)实现和Aptio BIOS上不如传统服务器厂商,并期待DGX级别的产品能在工程质量上更可靠。关于软件栈,有回应指出NVIDIA已有DGX OS(一款基于Ubuntu的系统)与较完整的分析库和驱动级回归测试流程,这在一定程度上支持其向整机与托管服务延展的能力。评论还强调布线、液冷、铜缆管理等柜级工程复杂性——这些一线工程问题决定把硬件卖成“可即插即用”模块时的真实成本与可交付性。

[来源1] [来源2] [来源3] [来源4] [来源5]

对云提供商与市场结构的影响

评论讨论若NVIDIA直接出售整盘/整机並提供预装、测试服务,传统云提供商可能退化为仅提供机房与电力的CoLo(colocation)角色,AWS等大型云厂的长期商业模式因此面临挑战。有人指出NVIDIA不仅卖硬件,还通过投资或与租赁厂商合作(如CoreWeave)进入托管与租赁市场,这会对现有GPU云生态产生替代效应。讨论还覆盖卖断与出租的权衡:出租可降低用户在泡沫期承担过多闲置硬件风险,但无论哪种模式都可能加剧算力的集中化与短期供需紧张。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

📚 术语解释

L10 compute tray / L10 一体化计算盘: 表示高度集成的机架托盘级模块(L10),由供应商将加速器、CPU、内存、NIC、供电硬件、midplane接口与液冷冷板等预装并经过测试后交付,区别于仅提供GPU或部分预装子板的低级集成(如L7–L8)。

DGX: NVIDIA的高端整机/系统产品线(如DGX系列),面向AI训练与推理场景,通常包含多块NVIDIA GPU、专用互联与优化的软件栈。

NVL72 / GB200: NVL72是NVIDIA用于大规模GPU部署的机架级实现之一,GB200平台曾以预装的“Bianca”主板为例被视作早期的部分集成方案,用于与新报道中的L10对比。

Hyperscalers / ODM: Hyperscalers指超大规模云服务商(如AWS、Google Cloud、Azure);ODM(Original Design Manufacturer)指负责服务器与主板设计制造的代工企业(如SuperMicro),两者在整机设计、部署与定制化上扮演关键角色。

TPU: TPU(Tensor Processing Unit)是Google为机器学习设计的专用加速器與服务模式,常被用来讨论把算力作为服务(受管平台)与卖硬件两种商业范式及客户锁定风险的对比。