News Hacker|极客洞察

271 10 小时前 dnhkng.github.io
🧠在两块游戏卡上复制中间约7层,让 Qwen2-72B 登顶 Open LLM 排行榜
只要把中间七层复制一遍就成最强?真这么简单?

🎯 讨论背景

本文来自一篇 Show HN 帖子,报告者在 Qwen2-72B(一种大型公开预训练模型)上通过复制一个中间层块(约7层、未改权重)在 HuggingFace Open LLM Leaderboard(开源模型基准)上取得显著提升并登顶。实验最初在 2x RTX 4090s(作者的家庭开发环境)完成,后在 dual GH200(NVIDIA 高端卡)上扩展并对 GLM-4.7、Qwen3.5、MiniMax M2.5 等模型做了更多尝试。评论把此发现与“中间层作为功能器官”的可解释性假设、循环/重用中间块(如 LoopLM、Ouro-llm)及相关论文(例如 SOLAR/DUS、The Curse of Depth、Geiping 等关于推理深度的工作)联系起来,讨论聚焦于块规模敏感性、路由/跳过机制、跨模型合并时的 k/v cache 问题与可复现性。整体讨论既有理论参考也有大量工程与可复制性的现实关切,显示 hobbyist 实验在探索模型内在结构方面的价值与局限。

📌 讨论焦点

核心发现:复制中间7层块可提升性能

作者在 Qwen2-72B(一个大型公开预训练模型)中未经权重调整地复制了一个特定的中间层块(约7层),在 HuggingFace Open LLM Leaderboard 的多项基准上提升表现并登顶。实验证明单层复制没有效果,复制过多层会导致性能下降,只有“电路规模”约7层的整块有效,这被解读为预训练在层堆栈中刻画出需要整体保留的离散功能电路。该方法在对其他模型(如 GLM-4.7、Qwen3.5、MiniMax M2.5)及后续大卡测试中继续验证,评论里有人进一步比较了与社区合并模型(如 Goliath)的可互换性经验。部分讨论聚焦于重复次数的边际效应与它是否等同于增加推理循环;作者及评论者的实验显示多次重复往往无益甚至有害。

[来源1] [来源2] [来源3] [来源4] [来源5]

模型“器官”与可视化证据

很多评论将发现解读为模型在预训练中发展出的可辨识功能“器官”:早期层做输入编码,后期层做输出解码,中间层构成通用的 reasoning cortex。作者用 heatmaps 展示了层间边界,CKA(centered kernel alignment)等分析被引用来说明中间层与邻层表示高度相似,因此复制整块可以在不破坏编码/解码接口下增加计算容量。这种“必须保留整个器官”的观点解释了为何部分或单层复制通常不起作用。讨论还指出 MoE(Mixture of Experts)是不同的稀疏路由范式,与整块复制并非等价或替代关系。

[来源1] [来源2] [来源3] [来源4] [来源5]

循环/重用中间块与推理深度

许多评论把层复制与循环/重用中间块的思路联系起来,建议在推理时重复同一“思考”块(loop)以扩展计算深度而不增加参数。已有研究与实现被引用作为参考,例如 LoopLM(循环重用层的论文/架构)、Ouro-llm(相关实现示意)以及 SOLAR/DUS、"The Curse of Depth" 与 Geiping 等人的工作,这些工作在不同角度支持重复或递归深度能提升性能的可能性。评论同时警告未经训练的循环可能破坏原有电路,需引入路由/跳过机制或在训练阶段支持,否则多次重复往往会损害表现。有人还提出用随机化层顺序、路由器或元模型来选择层次,但这些方法面临计算和组合复杂度问题。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

可复现性、硬件门槛与社区实验

这项工作由 hobbyist 在相对可及的硬件上开展(初期在 2x RTX 4090s 的家庭环境开发,后在 dual GH200 上测试),作者表示将发布代码和脚本,但当前主要是针对其特殊硬件的一组工具脚本。评论普遍称赞文章写得可读且启发性强,但也指出高昂的算力与时间成本是学术或企业大规模复现与深入验证的主要障碍。社区成员希望在代码开源后复现或在更小硬件上尝试,但也有人认为这类探索更适合硬件资源允许的爱好者群体而非标准研究流程。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

分布外通用性与 Base64 奇效

文章与多条评论注意到模型能同时解码和编码 base64,这对分布外输入的泛化能力提出了疑问和好奇。评论指出 base64 片段可能源自 MIME 编码的邮件或训练数据的编解码副产物,但普遍认为不太可能所有训练方都系统性地把数据再转成 base64 训练。把 base64 看作替代引符表的观点被提出:对于某些机械可逆的变换,模型的中间电路更容易学会双向映射,这解释了局部可逆任务下的稳健性,但对更广泛的分布外泛化仍无统一解释。

[来源1] [来源2] [来源3] [来源4] [来源5]

合并层、模态扩展与推理机制挑战

讨论把这类“LLM 脑外科”想象为可以拼接不同模型的‘器官’以增强能力、给文本模型附加视觉模态,或在 token 级别调节循环次数来分配计算资源。实际工程难题包括如何合并不同模型或层的 k/v cache(key/value cache)以维持注意力一致性、如何避免局部循环破坏全局表示,以及合并后是否需要额外微调或路由机制来保持接口完整。有人尝试用元学习或传统模型(例如 XGBoost)预测合并效果,但总体上这些方法面对组合爆炸和训练范式变更,需要更多工程和理论工作才能稳定可用。

[来源1] [来源2] [来源3] [来源4] [来源5]

📚 术语解释

MoE(Mixture of Experts): 一种稀疏激活的网络架构,通过路由机制只激活部分“专家”子网络以节省计算并提高模型容量。

CKA(centered kernel alignment): 衡量不同层或不同模型内部表示相似性的统计方法,常用于分析层间功能或表示重叠。

LoopLM / 循环深度方法: 在推理时重复调用同一中间层块以增加计算深度的架构或思路,能在不增加参数的情况下提升推理能力,但通常需要训练或路由支持以避免破坏表示。

Deep equilibrium models(深度平衡模型): 将深层网络视作固定点方程并通过迭代求解该固定点的一类方法,理论上等价于无限深度的递归网络。

k/v cache(key/value cache): Transformer 自回归推理时缓存的注意力键/值,用于加速跨步计算;跨层或跨模型合并 k/v 会带来一致性与语义保留的工程难题。