News Hacker|极客洞察

122 2 天前 extropic.ai
🤔Extropic 推出热力学概率计算硬件,声称低能耗复杂分布采样
这是能实质加速 AI 采样,还是又一漂亮噱头?

🎯 讨论背景

Extropic 是一家宣称在做“热力学/概率计算”硬件的初创公司,公开了博客、THRML 软件栈与 arXiv 预印本(并展示 XTR-0 原型)。它的核心主张是通过在 CMOS 等工艺中实现 pbit / TSU 类单元,直接以物理噪声或热力学过程产生目标概率分布的样本,从而在 Gibbs sampling、diffusion 模型的去噪等需要大量采样的场景里显著降低能耗。讨论基于几个前提:采样密集型算法在某些任务中是关键瓶颈、传统 PRNG/CPU/GPU 在能耗或分布复杂度上可能受限;同时评论也指出实现这类硬件需要新栈、与现有 pretrained 模型兼容性差、且示例规模(如 Fashion-MNIST)尚小,历史上类似的 TRNG/analog VLSI 尝试既有成功也有被忽视的教训。

📌 讨论焦点

只是硬件 RNG 还是可控复杂分布采样器?

有评论把 Extropic 描述为在做硬件 RNG(输出均匀随机数),并指出现代 SIMD CPU + PRNG/CSPRNG(如 rdrand 在加密中应用)在多数场景下已经足够快且可复现。反方强调该设备并非只产出均匀随机数,而是直接以低能耗生成“可控”的复杂概率分布样本,声称能比用 ALU 先生成均匀随机数再变换更高效,特别是在需要从复杂分布大量采样的任务(例如 Gibbs sampling、diffusion 模型的去噪步骤)中。支持者把核心价值锁定为以极低能耗产生符合目标分布的大规模采样;怀疑者则认为随机数生成通常并非主流 AI 的瓶颈,PRNG 在工程上已足够实用。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

营销噱头与怀疑:华丽外观是否掩盖实质?

多条评论对公司网站、设备外观和科幻式包装表示怀疑,认为“sizzle”多于实质,可能是在吸引投资者注意。批评者要求更清晰的基准数据与绝对能耗/延迟数字,指出论文演示规模有限(有人提到 Figure 1 仍是 Fashion-MNIST),并提醒 Amdahl 定律和端到端开销可能抹平局部加速的收益。还有观点认为专用加速器长期难以在与通用 GPU 的竞争中立足,Extropic 从超导体设想转向 CMOS 的转变也被用来质疑早期承诺的可行性。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

潜在价值:为基于采样的模型与低功耗采样带来机会

支持者认为,如果硬件能让“抛币”或复杂分布采样成为极低成本的原语,许多以采样为核心的方法(Gibbs sampling、energy-based models、probabilistic graphical models 等)会重新变得可行。Extropic 的 THRML 旨在提供一个把廉价采样暴露给模型的编程接口,评论中有人把它看作能在特定任务(去噪、贝叶斯推断、样本基方法)上成为“游戏规则改变者”。也有乐观者认为,当采样成本降到极低时,经济动机会驱动把更多问题转换为采样问题,但另一些人警告这可能对当下以大型深度模型为主的生态已来得太晚。

[来源1] [来源2] [来源3] [来源4] [来源5]

工程与测量难题:栈兼容性、可扩展性与可比性

评论强调要让这类新范式落地需要完整的软件/工具链支持,许多现有 pretrained 模型和实践并不能直接迁移到新的采样硬件上。论文与演示未展示大规模(如 LLM 级别)能否扩展,且缺少绝对能耗对比;如何衡量 analog/thermodynamic 设备的“有效算力”也被提出——FLOPs 不再适用,需要新度量。模拟/模拟电路面临可重复性、制造差异和训练后模型无法像数字文件(.gguf)那样无损复制的问题,且有人直接质疑这是应该做成独立加速 dongle 还是完整 CPU 平台。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

历史与相关技术参照:lava lamp、rdrand、analog VLSI 等

讨论回顾了历史上用物理噪声制造随机性的尝试:Ed Fredkin 的真随机寄存器故事、Lavarand(lava lamp 随机数)、以及后来 CPU 指令级的 rdrand。评论指出 TRNG 在密码学和真随机需求上有用,但日常 ML/统计常用速度更快、可复现的 PRNG;有人提示制造 TRNG 的物理方法并不复杂(如反向偏压 zener 二极管)。另外被提及的前沿探索包括 memristor、analog VLSI、Normal Computing 等,且有人注意到 Extropic 已有 XTR-0 原型并从更激进的超导设想回退到 CMOS 实现。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

📚 术语解释

Gibbs sampling: 一种 Markov Chain Monte Carlo (MCMC) 采样算法,通过依次按条件分布更新变量来从高维复杂概率分布中采样,常用于 energy-based models 和某类概率图模型的推断或生成过程。

pbit(probabilistic bit): 概率比特:一种以概率态存在的模拟/热力学单元,输出不是确定 0/1 而是按某一分布随机取值,设计用来在硬件层面直接实现随机采样或概率推断(非量子 qubit)。

TSU / TSU-101 (Thermodynamic Sampling Unit): Extropic 提出的硬件单元概念(Thermodynamic Sampling Unit),文档/论文中以 TSU-101 等命名,目标是在 CMOS 等可制造工艺中用热力学/模拟电路直接实现高效概率采样。

THRML: Extropic 公布的 ML 软件栈(THRML),意在把廉价采样/“抛币”原语暴露给模型开发者,README 中列出的技术包括 Gibbs sampling、probabilistic graphical models 与 energy-based models。

TRNG / CSPRNG / PRNG: 三类随机数生成器:TRNG(true RNG)依赖物理噪声产真随机数;CSPRNG(cryptographically secure PRNG)是加密安全的伪随机算法;PRNG 是速度更快的确定性伪随机生成器,工程上常用于非加密场景。

Energy-based models (EBM): 一种以能量函数定义样本概率的模型范式,需要通过采样方法(如 Gibbs sampling)进行推断或生成,因而对高效采样硬件敏感。