加载失败
这篇讨论源自一篇主张“在 Transformer 内部直接执行程序”的文章,作者声称通过把 attention head 维度降到 2 并只探索二维凸包(hullkv)可以把某类结构化执行器的解码成本降到 O(k+log n) 级别,并把 WASM 运行时或数独求解器编译到模型权重中。文章还主张执行轨迹是前向传递的一部分,从而可以在模型内部反向传播梯度(可微分执行);但原文未给出训练数据、损失函数、关键方程或权重/编译器的开源实现。社区讨论分成两派:一派对作为系统原语与可解释性研究表示兴奋,另一派则质疑效率、可微性、确定性与可复现性,并要求更多实验和基准。涉及的技术概念包括 WASM(WebAssembly,一种便携字节码)、convex hull attention/hullkv(限制检索到2D凸包以加速检索)和 KV cache(Transformer 的键值缓存)。
大量评论指出文章文风像LLM产出的浮言套话:语句工整但重复、缺乏关键数学公式和训练细节。读者抱怨没有公开权重、没有训练/损失函数说明、没有可复现的benchmark或编译器工具,这些都让核心断言(例如可微分执行和速度优势)难以验证。有人进一步认为文中用词和类比(比如“内化计算”的类比)是黄旗信号,历史上的错误示例被引用来说明未经验证声明的风险。总体结论是:形式上吸引人但可审计性与可复现性严重不足,不能只靠文案信服社区。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
支持者把本文提出的技术当作有价值的系统原语:把 lookup heads 限制到 head dimension=2 并只探索二维凸包(hullkv),据称可把结构化执行器的检索/更新从线性或二次复杂度降为 O(k+log n) 或 O(log n) 级别。评论里讨论了把这种“fast path”与慢路径结合、作为 speculative execution 或在单模型内做 fast/slow 混合的可能性,并指出这能让模型进入一种“focus mode”以极快生成大量候选推理路径。具体细节如 hullkv、2D head 的几何 argmax 检索、以及在文本中跟踪寄存器/栈式执行痕迹被多次提及,认为这是一个强有力的系统原始子模块。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
许多评论质疑把计算塞进模型是否带来实用回报:确定性计算在 ALU/CPU 上本质上比神经网络更高效,直接调用本地解释器或把 WASM 运行到原生 VM 可能更省时省能。还有技术性反对意见指出把动态 I/O 与系统调用放在 GPU 上会打破批处理(warp/ SIMD)并造成阻塞,导致吞吐率下降;有估算认为在效率上可能差数千倍。非确定性(采样、temperature)和输出一致性问题也被提及:要保证多次调用一致时,所谓的速度或收益是否仍成立值得怀疑。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
文章宣称“执行痕迹在前向传递中并可反向传播梯度”,但评论指出缺乏训练数据来源、损失函数与数学推导等关键细节,使端到端可微训练的主张站不住脚。技术反驳包括:average‑hard attention(相较 softmax)对 keys/queries 不可微,straight‑through 估计也无法让后向像前向那样加速;没有连续化、可区分的损失函数就难以优化部分正确解。另一方面也有人提出潜在用例:把已有表现 80% 的专家系统嵌入为静态子模块,再训练周边权重以提升成功率,说明此法或可作为训练 bootstrap 的途径。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
部分评论把这条路线看作可解释性和 neurosymbolic 研究的有趣方向:若模型某些行为为伪符号化(pseudo‑symbolic),则更易审计、复用并作为冻结层共享,可能替代一部分 LoRA/微调流程。支持者认为这能增强模型的几何或空间推理能力,并且把确定性解算器做成子网络/子模块后可提升可复现性和推理准确率。反对者把这视为老套路的回潮,但普遍同意值得实验来检验性能与可解释性的权衡。
多条评论反复问及关键实现细节:文中示例(如数独求解器或 WASM 解释器)是如何“编译”进 Transformer 权重的——是人工把 VM/解释器编码到权重,還是通过监督/强化学习训练得到?一条回复推测作者把一个简单虚拟机嵌入权重,再把 WASM runtime 与求解器编译过去,但原文没有公开权重或编译器工具,外界无法复现。评论因此强烈要求开源权重、训练流程与 benchmark,以便验证和扩展该思路。
WASM (WebAssembly): 一种便携的低级字节码格式,设计用于在浏览器及其他运行时高效执行。文章把 WASM 当作要在 Transformer 内“编译/解释”的目标代码,从而示范把通用程序加载为模型内部的执行单元。
convex hull attention / hullkv: 文中提出的一种检索约束方法(文中称 hullkv),通过只在键/查询的二维凸包上探索来减少注意力检索空间,从而在结构化执行场景下把检索/更新复杂度降为对数级。
2D attention heads (head dim=2): 把每个 attention head 的向量维度限制为 2,将键/查询视作二维点并用几何算法(如凸包或二分)实现快速 argmax/检索,文中声称这是实现对数级检索的关键。
KV cache / KV tables: Transformer 推理时常用的键-值缓存结构,用于保存过去令牌对应的 key/value 向量以便 attention 检索。文章以传统 KV cache 作为比较对象来声称其新方法在某些场景下更快。
Differentiable execution(可微分执行): 把程序执行轨迹纳入模型的前向传递并允许梯度穿过这些步骤,从而理论上支持端到端训练。评论指出实现这一点需要明确的 loss 设计与可微性证明,否则只是语义上的声明。