加载失败
这篇 arXiv(学术预印本网站)预印本《Attention Residuals》提出把 Transformer(主流大模型架构)里的 residual connections(残差连接)从固定逐层相加改成对历史层表示做 attention,让模型按输入内容选择性地聚合过去的信息。作者声称这种改法能缓解 PreNorm(先做 LayerNorm 再进入残差块)的隐藏状态随深度膨胀问题,并在训练 loss 上带来更好的 compute tradeoff。为了避免 Full AttnRes 在大模型上出现 O(Ld) 级别的内存和通信开销,论文又给出 Block AttnRes(分块版),把层分成若干 block 后再做近似聚合。评论区主要围绕两件事展开:它到底改善的是训练还是推理,以及第一作者还是高中生、因此项目在 GitHub 上迅速走红。
评论里先有人把摘要拆开,指出 AttnRes 不是把所有 residual 机械相加,而是对前序层表示做 softmax attention。有人进一步强调,Full AttnRes 在大规模训练时会有 O(Ld) 级别的内存和通信压力,所以作者才提出 Block AttnRes,把层切成若干 block 后先在块内累积,再在块级表示上做注意力。讨论中还提到,取大约 8 个 block 就能保住大部分收益,因此它更像是面向规模化训练的工程化改造,而不是纯概念展示。有人因此把它理解成一种可近似替换原结构的 drop-in replacement。
不少评论一开始把论文读成训练能省约 20% 算力、推理也能明显降带宽,甚至能在消费级硬件上跑得更好。随后有人纠正说,这个 20% 指的是非 AttnRes 模型要多花多少 compute 才能达到相同 loss,而不是直接宣称训练时间减少或推理加速。所谓 1/6 memory bandwidth 的说法也被指出并非论文的普遍结论,而更像围绕 DeepSeek 的 mHC(multi-lane highway connections,一种改善深层信息流的连接方式)以及部分中文二次解读才出现的部署场景。争论的核心是:benchmark 上的少量提升、loss 曲线和实际 inference 性能不是一回事,不能把“更省 compute”自动翻译成“推理飞升”。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
有人惊讶地发现第一作者还是高中生,这让讨论自然转向“少年天才”叙事。另一个评论顺带提到该项目在很短时间内拿到了两千多个 GitHub stars,因此一开始会让人觉得它像是突然爆红的热门项目。这个观察本身并不评价论文真假,但说明作者背景和社交热度确实显著影响了大家对论文的第一印象。
从“第一作者是高中生”这条线又延伸出一段关于中国教育和人口结构的争论,有人把它上升成“受过中国培养的年轻天才会越来越多”。反对者则拿人口金字塔和 2024 年中国初中毕业去向数据来说明,高中学龄人口未必还在增长,且并非所有人都会继续上普通高中。随后讨论转到官方统计是否可靠:一派认为中国数据常有夸大增长的激励,甚至怀疑那 300 万“消失”的学生可能根本不存在;另一派则反击说,长期宣称“中国所有数据都不可信”同样缺乏证据,而且各国官方统计都会有误差和宣传动机。这个分支基本是在讨论“该对中国官方数据保留多少怀疑”,而不是论文本身。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
有人把 AttnRes 类比成 LSTM(长短期记忆网络)里的 input gates,意思是它不再把过去状态一视同仁地硬相加,而是学会挑选保留哪些历史表示。这个类比强调的是“门控”而不是“残差”,帮助把论文直观地理解成一种更柔性的历史信息筛选机制。虽然只是简短一句,但它说明读者在试图用更熟悉的序列模型概念来解释这种新型 residual aggregation。
PreNorm: Transformer 中先做 LayerNorm 再进入 residual/attention 模块的结构。
residual connections: 把前层输出直接加到后层输入上的结构,用来缓解深层网络训练困难。
softmax attention: 用 softmax 归一化权重,在多个历史表示中选择性聚合信息的机制。
Block AttnRes: 把层按 block 分组后再做 Attention Residuals 的近似版本,目的是降低内存和通信开销。
memory bandwidth: 内存读写吞吐上限,部署或推理时常常成为性能瓶颈。