🤔 把程序编入Transformer（含WASM）：用2D‑head+凸包注意换来对数级执行，但细节与效率受质疑

245 45 天前 percepta.ai

🤔把程序编入Transformer（含WASM）：用2D‑head+凸包注意换来对数级执行，但细节与效率受质疑

把程序写进权重里，就别再用 CPU 了？

🎯 讨论背景

这篇讨论源自一篇主张“在 Transformer 内部直接执行程序”的文章，作者声称通过把 attention head 维度降到 2 并只探索二维凸包（hullkv）可以把某类结构化执行器的解码成本降到 O(k+log n) 级别，并把 WASM 运行时或数独求解器编译到模型权重中。文章还主张执行轨迹是前向传递的一部分，从而可以在模型内部反向传播梯度（可微分执行）；但原文未给出训练数据、损失函数、关键方程或权重/编译器的开源实现。社区讨论分成两派：一派对作为系统原语与可解释性研究表示兴奋，另一派则质疑效率、可微性、确定性与可复现性，并要求更多实验和基准。涉及的技术概念包括 WASM（WebAssembly，一种便携字节码）、convex hull attention/hullkv（限制检索到2D凸包以加速检索）和 KV cache（Transformer 的键值缓存）。

📌 讨论焦点

缺乏细节与可验证性（文章风格可疑）

大量评论指出文章文风像LLM产出的浮言套话：语句工整但重复、缺乏关键数学公式和训练细节。读者抱怨没有公开权重、没有训练/损失函数说明、没有可复现的benchmark或编译器工具，这些都让核心断言（例如可微分执行和速度优势）难以验证。有人进一步认为文中用词和类比（比如“内化计算”的类比）是黄旗信号，历史上的错误示例被引用来说明未经验证声明的风险。总体结论是：形式上吸引人但可审计性与可复现性严重不足，不能只靠文案信服社区。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

系统原语与速度潜力（凸包 attention、2D heads、O(log n)）

支持者把本文提出的技术当作有价值的系统原语：把 lookup heads 限制到 head dimension=2 并只探索二维凸包（hullkv），据称可把结构化执行器的检索/更新从线性或二次复杂度降为 O(k+log n) 或 O(log n) 级别。评论里讨论了把这种“fast path”与慢路径结合、作为 speculative execution 或在单模型内做 fast/slow 混合的可能性，并指出这能让模型进入一种“focus mode”以极快生成大量候选推理路径。具体细节如 hullkv、2D head 的几何 argmax 检索、以及在文本中跟踪寄存器/栈式执行痕迹被多次提及，认为这是一个强有力的系统原始子模块。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

实用性与效率质疑（CPU/工具调用更快、GPU批处理与延迟问题）

许多评论质疑把计算塞进模型是否带来实用回报：确定性计算在 ALU/CPU 上本质上比神经网络更高效，直接调用本地解释器或把 WASM 运行到原生 VM 可能更省时省能。还有技术性反对意见指出把动态 I/O 与系统调用放在 GPU 上会打破批处理（warp/ SIMD）并造成阻塞，导致吞吐率下降；有估算认为在效率上可能差数千倍。非确定性（采样、temperature）和输出一致性问题也被提及：要保证多次调用一致时，所谓的速度或收益是否仍成立值得怀疑。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

训练与可微性争议（能否反向传播及其局限）

文章宣称“执行痕迹在前向传递中并可反向传播梯度”，但评论指出缺乏训练数据来源、损失函数与数学推导等关键细节，使端到端可微训练的主张站不住脚。技术反驳包括：average‑hard attention（相较 softmax）对 keys/queries 不可微，straight‑through 估计也无法让后向像前向那样加速；没有连续化、可区分的损失函数就难以优化部分正确解。另一方面也有人提出潜在用例：把已有表现 80% 的专家系统嵌入为静态子模块，再训练周边权重以提升成功率，说明此法或可作为训练 bootstrap 的途径。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

可解释性与神经—符号混合的研究前景

部分评论把这条路线看作可解释性和 neurosymbolic 研究的有趣方向：若模型某些行为为伪符号化（pseudo‑symbolic），则更易审计、复用并作为冻结层共享，可能替代一部分 LoRA/微调流程。支持者认为这能增强模型的几何或空间推理能力，并且把确定性解算器做成子网络/子模块后可提升可复现性和推理准确率。反对者把这视为老套路的回潮，但普遍同意值得实验来检验性能与可解释性的权衡。

[来源1] [来源2] [来源3] [来源4] [来源5]

实现细节与可复现性疑问（编译到权重是手工还是训练得来）

多条评论反复问及关键实现细节：文中示例（如数独求解器或 WASM 解释器）是如何“编译”进 Transformer 权重的——是人工把 VM/解释器编码到权重，還是通过监督/强化学习训练得到？一条回复推测作者把一个简单虚拟机嵌入权重，再把 WASM runtime 与求解器编译过去，但原文没有公开权重或编译器工具，外界无法复现。评论因此强烈要求开源权重、训练流程与 benchmark，以便验证和扩展该思路。

[来源1] [来源2] [来源3] [来源4] [来源5]

📚 术语解释

WASM (WebAssembly): 一种便携的低级字节码格式，设计用于在浏览器及其他运行时高效执行。文章把 WASM 当作要在 Transformer 内“编译/解释”的目标代码，从而示范把通用程序加载为模型内部的执行单元。

convex hull attention / hullkv: 文中提出的一种检索约束方法（文中称 hullkv），通过只在键/查询的二维凸包上探索来减少注意力检索空间，从而在结构化执行场景下把检索/更新复杂度降为对数级。

2D attention heads (head dim=2): 把每个 attention head 的向量维度限制为 2，将键/查询视作二维点并用几何算法（如凸包或二分）实现快速 argmax/检索，文中声称这是实现对数级检索的关键。

KV cache / KV tables: Transformer 推理时常用的键-值缓存结构，用于保存过去令牌对应的 key/value 向量以便 attention 检索。文章以传统 KV cache 作为比较对象来声称其新方法在某些场景下更快。

Differentiable execution（可微分执行）: 把程序执行轨迹纳入模型的前向传递并允许梯度穿过这些步骤，从而理论上支持端到端训练。评论指出实现这一点需要明确的 loss 设计与可微性证明，否则只是语义上的声明。

原文链接 Hacker News 讨论

AI Programming Systems transformers inference program execution percepta.ai assembly

News Hacker｜极客洞察