加载失败
这篇帖子围绕 AI 进入“稀缺时代”的说法展开,核心是训练和推理对 GPU、显存、电力和晶圆厂产能的需求,可能开始撞上现实瓶颈。评论多次提到 Open Weight models(开放权重模型),因为它们可以在用户本地机器上运行,把一部分算力压力转移到终端设备;也提到 Claude Code(Anthropic 的代码代理产品)在简单文件编辑上仍会浪费 token。另一条线索集中在 ASML(荷兰半导体设备公司,EUV 光刻机制造商)和半导体供应链,认为芯片扩产、光刻设备和电力都不可能像软件一样迅速放大。讨论还延伸到 AI labs 的烧钱是否只是用亏损换市场份额,以及未来 inference 是否会因 ASIC(专用集成电路)和云端价格变化而快速商品化。
不少评论认为,算力越紧张,越会逼出对 harness design 和 small models 的真正优化。有人举 Claude Code(Anthropic 的代码代理产品)在处理带 tabs 的文件时反复失败为例,说明基础工具链里仍有大量 token 在被浪费,低垂果实并不少。另一些人把中国的低成本 specialized models 经验拿来对比,认为美国在充裕预算下更容易做出臃肿系统,并用 OS/2 vs Windows、Lisa vs Mac 的历史说明约束往往比资源更能催生实用产品。
一条很强的观点是,Open Weight models(开放权重模型)已经离 SOTA 只有 6 到 12 个月,足以覆盖很多公司产品需求。评论举例说,客服语音机器人甚至可以在 8GB VRAM 加上 ASR/TTS(自动语音识别/语音合成)上运行,而如果用户本来就要买 MacBook 或带 Nvidia GPU 的桌面,这部分算力几乎是顺手复用。有人把 distillation(蒸馏)称为 equalizing force,认为它会持续抬高小模型的可用性。反方则提醒,这种模式主要是在复用本来就存在的工作站算力,真正新增场景未必能缓解整体 scarcity。
讨论中最硬的约束被归结为电力和芯片产能,而不是单纯的需求热度。有人直接说美国受 energy 约束、中国受 compute power 约束,并提到中国每年新增约 500 GW 风光发电,意味着即使芯片只做到一半的每瓦性能,扩张仍可能继续。另一条线把瓶颈指向 ASML(荷兰半导体设备公司,EUV 光刻机制造商)和 EUV lithography(极紫外光刻),因为晶圆厂、关键零部件和上游供应链都很难短期扩产;即便用 DUV(深紫外光刻)和 multiple patterning 绕开,也会牺牲效率。还有人提到半导体厂商对扩产极为谨慎,因为行业长期经历 boom-bust cycle,甚至有人认为这种限制可能会持续 5 到 10 年。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
一派认为,labs 疯狂烧钱本身就说明“算力不够”的说法站不住脚,就像超市以 1 美元买橙子、0.5 美元卖出,不能再说自己缺橙子。反驳者指出,如果更低价格会触发指数级需求,那么现在的亏损其实是在为未来的市场份额和客户关系下注,而不是证明供给充裕。还有人用“买船运茶”的类比说明训练是前期资本开支、推理才是持续现金流,并声称 inference 有 60%+ margins;但质疑者随即提醒,这些 margin 数字并未公开审计,存在把投资错记成成本的风险,甚至可能重演 Worldcom 式的会计幻觉。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
有人认为当前 inference system 已经在走下坡路,厂商只是借着 scarcity 的名义继续收割。更激进的说法是,LLM inference 很快会像 cloud 一样 commodity 化,而 ASIC LLM inference(面向推理的专用集成电路)只需要 2 到 3 年就能追上。反对者则强调,前沿模型迭代太快,等 ASIC 量产时可能已经落后好几代,因此在模型尚未平台化前,云端更聪明的 tokens 仍然更划算。还有人拿 GB200 和 A100 价格上涨来反证需求强劲,说明这些设备并非闲置,而是被高利用率持续吸走。
Open Weight models(开放权重模型): 权重公开、可本地部署或微调的模型,能把一部分算力压力转移到用户自己的设备上。
distillation(蒸馏): 用大模型的输出训练小模型,让低成本模型尽量逼近大模型能力的方法。
ASML / EUV lithography: ASML 是制造 EUV 光刻机的荷兰公司,而 EUV 是先进芯片制造的关键瓶颈环节。
ASIC: 为特定工作负载定制的专用芯片;在 LLM inference 中可能更高效,但也更容易被新模型架构快速淘汰。