News Hacker|极客洞察

143 30 分钟前 blog.skypilot.co
🤖Karpathy Autoresearch 上 GPU 集群:调参还是自动研究?
多给几张 GPU,调参就成科研了?

🎯 讨论背景

Andrej Karpathy(前 Tesla/OpenAI 研究员)提出的 Autoresearch,是一种让 LLM agent 在 GPU 集群上反复提出、修改并执行实验的研究循环。它不只是生成文本,而是会读程序、改 PyTorch 代码、跑训练、看结果,再决定下一步做什么,因此很容易被拿来和 hyperparameter tuning、neural architecture search 或自动化科研比较。评论区围绕两个核心问题展开:一是这到底只是更聪明的调参,还是已经能做出架构级别的新探索;二是当 agent 拿到多卡并行、外部文献访问和更丰富的实验接口后,它是否真的能逼近人类研究者的工作方式。讨论里还反复提到 BO、freeze-thaw、H100/H200 这类具体实验与算力管理手段,说明这个话题本质上是“如何把昂贵的研究搜索变得更自动、更省算力”。

📌 讨论焦点

本质是调参,还是更广义的代码/架构研究

一派认为这个系统看起来大多还是在做 hyperparameter tuning,只是把搜索做得更自动化、更会利用直觉。反方强调它不仅会调 batch size、learning rate 这类参数,还能在提示下修改 PyTorch 代码、尝试新的 architecture changes,甚至把论文和 GitHub 里的思路转成可执行实验。有人举例说它在 sparse autoencoder 的 dead latents 问题上,除了可预期的参数调节,还尝试了 smear gate、backout skip connection 之类的新代码。也有人认为如果把搜索空间和约束设计得足够好,很多结果本来就能由 BO 更快找到。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

GPU 并行如何改变搜索策略

评论者反复讨论 1 张 GPU 和 16 张 GPU 时,agent 的研究策略会不会根本不同。有人把单卡描述成 greedy hill-climbing:试一个、看结果、再决定下一步;而多卡则能一波并行跑很多实验,更容易跳出 local optima,并发现参数之间的 interaction effects。也有人指出,从理论上讲,串行的 adaptive search 应该能模拟并不比并行差,只是并行把 wall-clock time 压下来了,GPU-time 甚至可能更差。另一些人把这个问题延伸到 learning curve extrapolation 和 freeze-thaw 这类方法,认为应通过预测早期曲线来避免过早收敛。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

H100/H200 案例是否真是“自主发现”

标题里最吸引人的例子是,agent 自己发现 H200 比 H100 更好,于是先在 H100 上筛选想法,再把更有希望的方案送到 H200 上验证。质疑者认为这只是研究里很常见的廉价筛选加高成本验证套路,训练集里的论文很可能早就讲过,并不意味着模型真的“发明”了它。支持者则反驳说,训练集中出现过某种模式,并不妨碍模型在新任务中重新组合并独立产出同样策略。争论的核心其实是:什么才算“on its own”,以及我们是否有办法区分记忆、类比和真正的新推理。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

对 LLM 科研能力和 hype 的怀疑

另一条很强的声音是:这类 Autoresearch 只是把 LLM 放进循环里做大量输出,容易把 benchmark 做漂亮,却把代码库和理解一起搞坏。评论者抱怨很多人把简单 loop 包装成突破,还伴随对名人的 hero-worship,结果是围绕 AI 产出更多“看似有内容”的东西,实际只是 entropy 增加。更激烈的说法是,LLM 现在仍会胡说、难以处理真正困难的工程任务,所谓进步常常只是“industrialized overfitting”。也有人直接把这种现象称为 AI psychosis,认为大家在用模型制造模型相关的幻觉。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

真实工作流中的可用性

不少评论并不把它当成宏大的“自动科研”,而是把它看成一种实用的 guided search。有人用 code profiler 让 agent 优化速度,发现它确实能在一个非凸空间里像“qualitative gradient descent”那样工作;也有人把它用于 physics simulation 的参数调优,发现只要给出直觉、物理约束和测试接口,效果会相当不错。还有人谈到更广的工作流:让 agent 阅读 deep learning literature、在 shared notebook 里接力改进,或者在 sparse autoencoder、GPU parallelism 等具体任务上持续试错。整体上,这些评论认为真正有价值的不是“模型会不会想出全新科学”,而是它能否把人类研究里原本很费时的探索步骤自动化。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

Karpathy 个人信誉与 Tesla 旧账

有一小段讨论把话题扯到 Karpathy 过去在 Tesla 的经历上,直接质疑他是否该为 Autopilot 和 FSD 相关问题负责。回复则用更激烈的语气重述 Tesla 的公众营销与现实能力之间的落差,强调其系统在 sunlight、precipitation、fog 等情况下的局限,并把责任与他在 computer vision 团队的角色联系起来。这个分支基本不讨论 Autoresearch 本身,而是在争论一个人的过往经历是否影响他当前的可信度。

[来源1] [来源2]

📚 术语解释

hyperparameter tuning: 通过搜索 batch size、learning rate 等训练超参数来提升模型表现的方法。

Bayesian optimization (BO): 一种用代理模型决定下一次试验参数的黑盒优化方法,常用于昂贵实验的高效搜索。

neural architecture search (NAS): 自动搜索模型结构的技术,比单纯调参更偏向架构层面。

freeze-thaw: 先短跑试验、根据 learning curve 决定是否续跑或暂停的资源分配方法。

H100/H200: NVIDIA 的数据中心 GPU 型号,H200 通常更强,常被拿来做筛选/验证分层实验。