News Hacker|极客洞察

134 45 天前 qlabs.sh
🤔NanoGPT Slowrun:数据效率翻10倍,算力账单仍是焦点
数据效率翻十倍,算力账单也跟着蒸发了?

🎯 讨论背景

NanoGPT(一个极简 GPT 实现)Slowrun 讨论的是在固定或很少的真实数据下,如何借助更长的计算过程、ensemble 和 chain distillation 把模型能力做出来。这个话题直接接到 LLM 训练里的 Chinchilla scaling law(DeepMind 提出的算力-数据配比经验法则)、synthetic data(合成训练数据)以及 SFT(supervised fine-tuning,监督微调)等争论上。评论区还借用了生物进化和人类婴儿学习来类比少样本学习,试图说明“数据效率”到底能不能像人类那样被先验和架构弥补。另一条支线则在拆解 distillation 的标准公式,重点围绕 logits、softmax、temperature T 和 KL divergence 这些基础概念。

📌 讨论焦点

部署价值与算力账单

评论首先关注的是落地成本,而不是论文里“数据效率提高 10 倍”的数字本身。有人担心如果固定数据训练依赖 ensemble 加 chain distillation,最终到底是直接部署 ensemble,还是把增益压缩进单模型再上线,因为两者的训练和 serving 账单差别很大。回复里指出 ensemble 理论上可以再 distill 成单模型,但这只是说明压缩路径存在,并不自动消除前期算力开销。核心争点是:一个漂亮的 scaling 结果,能不能变成真正可用的部署方案。

[来源1] [来源2]

人类学习与进化类比

另一大类讨论把人类学习当作少样本基线,追问人到底需要看多少只猫狗才能学会概念。很多回复认为这类比较并不公平,因为人类在出生前已经被进化“预训练”了几十亿年,真正继承的是学习架构、先验和一些硬编码偏好,而不是从零开始的模型参数。有人举例说,猫狗、斑马这类差异明显的目标可能一两张图就够,但像 oryx、kudu、waterbuck 这类相近动物就需要更多样本;幼儿可能要见到几十上百次才稳定区分。还有人补充,所谓“基因多少字节”本身就很难定义,因为遗传系统还包含 epigenetic marks、non-coding RNA、3D chromatin structure 和 mitochondrial DNA。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

自我改进循环与 singularity

有评论把这类工作想象成一个自举循环:LLM 先训练出更好的 LLM,然后让新模型继续改进自己,形成持续学习的闭环。这个设想被直接联系到 singularity 和递归自我改进,但也立刻遇到现实限制:训练仍然慢、贵,而且改训练方法和架构本身需要很强的 quality thinking。怀疑者认为,目前最强的模型离“比最强人类更会设计下一代模型”还有距离,因此离真正的自动加速还很远。

[来源1] [来源2]

数据效率、synthetic data 与 Chinchilla 争论

围绕数据效率的争论最激烈。有人认为论文引用的“compute 增长比 data 更快”已经不太成立,因为今天的 labs 可以用更多 compute 生成 synthetic data,而且很多团队早就把训练推到了远超 Chinchilla-optimal 的数据规模。反对者则区分了 cheap bulk data 和 expensive human expert data,认为前者可以靠合成扩充,后者尤其在 SFT 时仍值得用各种方法榨干。还有人直接反驳“多算力就能无限造高质量数据”的说法,强调在 LLM、continual learning、robotics 等领域,真正的瓶颈仍然是不会把更多 compute 转成同等更多收益;有人顺手建议把这种思路试到 GrokAlign 上。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

chain distillation 公式与 T 的疑惑

还有一段讨论完全卡在 chain distillation 的公式上。有人注意到 loss 里一会儿乘 T、一会儿除 T,觉得像是为了把表达式写得更复杂。后来有人把公式拆开解释:它本质上是 cross-entropy 加上对 teacher/student 概率分布的 KL divergence,只是默认要先经过 softmax,而 T 是 temperature,用来把分布变软,T² 只是补偿梯度尺度。最戏谑的回复甚至把 T 说成 tea,顺便证明这类 ML notation 对外行确实很不友好。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

Chinchilla scaling law: DeepMind 提出的训练算力与数据量的经验最优配比,用来估计模型是否该继续加数据或加算力。

chain distillation: 把教师模型的推理链、软目标或中间输出逐步蒸馏给学生模型,以压缩能力。

synthetic data: 由模型或程序生成的训练数据,常用于扩充预训练语料或降低人工标注成本。

temperature T: 蒸馏中的温度参数,用来把 softmax 分布变软,T 越大分布越平滑。

KL divergence: 衡量两个概率分布差异的损失项,常用于让学生分布逼近教师分布。