News Hacker|极客洞察

31 7 小时前 qlabs.sh
🤔NanoGPT Slowrun:无限算力下的10倍数据效率与数据瓶颈争论
都能无限造高质量数据了,还要什么数据效率?

🎯 讨论背景

这篇帖子讨论的是 nanoGPT(一个轻量级 GPT 训练代码库)的 Slowrun 实验:在更长的计算时间和有限 tokens 下,尝试把训练做得更“省数据”。评论里反复提到 Chinchilla scaling laws(关于参数量、数据量和算力配比的经验法则),因为原帖把它当作对比基线。讨论还延伸到 synthetic data(合成数据)是否已经足以缓解数据稀缺,以及在 LLM 之外的 continual learning(持续学习)、robotics(机器人)和 biology(生物学)等领域,算力是否真的能换来更好的数据。另一个重要背景是 pretraining 和 SFT 的差异:前者依赖海量廉价文本,后者更依赖少量但昂贵的专家级样本,所以“数据效率”在高质量数据上尤其关键。

📌 讨论焦点

递归自我改进与自举训练

有评论把这个实验联想到 LLM 的递归自我改进:先让模型训练出一个更好的模型,再把它放回循环里持续迭代,直到真正具备“学会学习”的能力。有人用“Train yourself to solve this problem see OBJECTIVE.md”来形容这种自举式流程,强调把目标任务清晰化后,让模型自己推进训练。另一种看法更谨慎,认为这种接近 singularity 的想象很迷人,但现实里训练仍然又慢又贵,而且最强模型在“quality thinking”上仍明显不如人类。

[来源1] [来源2]

合成数据、Chinchilla 基线与数据瓶颈

一方认为“算力增长快于数据”这个前提已经不太成立,因为现在很多实验室会直接生成更多、更高质量的 synthetic data,甚至小模型也常用远超 Chinchilla-optimal 的数据量训练。回应者则指出,这种判断只对部分场景成立:LLM 的 pretraining 也许能继续依赖合成数据扩展,但这篇 Slowrun 的核心是用大约 1 亿 tokens 逼出新的预训练思路,而不是把一切都交给数据生成。还有人把讨论扩展到 continual learning、robotics、biology,认为这些领域都愿意为更好结果投入更多算力,但关键问题是我们还不知道如何把算力稳定转换成更好的训练信号。

[来源1] [来源2] [来源3] [来源4] [来源5]

高质量专家数据比海量廉价数据更值钱

有评论把数据分成两类:便宜的 bulk data,比如简单 synthetic data 和未过滤的网页抓取,主要用于早期 pretraining;昂贵的数据则是由人类领域专家生产的高质量样本,通常用于 SFT。因为这类专家数据的成本可能高到每小时 100 美元以上,所以每一个样本都更值得用更精细的训练方法反复榨取价值。这个视角把“数据效率”从单纯追求更多 token,转向如何让稀缺的高价值监督产生更大收益。

[来源1] [来源2]

📚 术语解释

Chinchilla-optimal: 基于 Chinchilla scaling laws 的训练配比思路,强调参数量、数据量和算力之间的最优平衡。

synthetic data: 由模型或程序自动生成的数据,用来替代或补充人工标注和真实语料。

SFT: Supervised Fine-Tuning,使用人工整理的高质量样本对模型进行监督微调。