News Hacker|极客洞察

⚖️Claude Code 生成代码归属:人类作者、雇主与训练数据争议
既然都说是你的,出事时怎么又变成公司的锅?

🎯 讨论背景

这场讨论围绕 Anthropic 的 Claude Code(一个 AI 编程代理)写出的代码,究竟算谁的版权:写 prompt 的开发者、雇主,还是根本没人可主张。背景牵涉美国 Copyright Office(美国版权局)对 AI 作品的指导、Thaler 案(关于 AI 生成作品能否著作权登记的争议)以及尚在进行的 Allen v. Perlmutter(检验人类是否需要对 AI 输出做足够控制的案件)。评论里还反复提到 Zarya of the Dawn(AI 图片案)、work-for-hire(职务作品)、fair use(合理使用)和 GPL/copyleft 等开源许可问题。因为很多公司已经把 AI 编码接入研发流程,讨论又延伸到 M&A 尽调、prompt 日志、trade secret(商业秘密)和责任归属,所以它不只是理论问题。

📌 讨论焦点

人类主导才可能有版权

不少评论认为,prompt 本身只是在表达目标,真正决定版权的是人是否对结构、表达和实现做了实质性控制。有人强调应保留 prompt 历史、拒绝模型初稿、重写错误处理、逐行修正等记录,因为这些能证明人类在指导作品如何被构造。也有人追问如何证明这点,认为一旦没有日志、屏幕录制或泄露证据,外界很难分辨哪些部分是人写的,哪些只是模型输出。整体上,这条线把会不会用 AI 与是否仍然在做创作决策区分开了。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

把 Claude 当工具,提示与 steering 也能算创作

另一派把 Claude Code 看成更高级的编译器、相机或木工工具:人先给出规格、架构和风格约束,再通过多轮提示、测试和编辑把结果磨到符合预期。有人举例说,自己花很多时间写 outline、约束模型使用自定义 DSL,最后生成物已经接近手写代码,创作性主要体现在 prompt 设计和反复 steering。也有人主张按谁付 token、谁使用工具来判断归属,认为把 AI 当工具并不比用 IDE、compiler 更奇怪。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

Thaler 只维持现状,没有全国性定论

评论区不断纠正一个常见误解:SCOTUS 拒绝受理 Thaler 上诉,并不等于全国性地确认了 AI 生成作品的版权规则。更精确地说,是 D.C. Circuit 的判决继续生效,Copyright Office 的立场暂时站稳,但这只是在现状下维持秩序,不是最高法院在实体上盖章。有人还强调,真正会改写局面的,是未来不同巡回法院的分歧,或者像 Allen v. Perlmutter 这类直接测试人类迭代 prompting 是否足够的案件。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

雇主控制、work-for-hire 与 trade secret

很多人把谁拥有输出与谁能阻止传播分开看。雇佣关系和 work-for-hire、IP assignment、保密条款可以让公司控制代码,即使那段代码本身未必能获得版权;但如果作品真的落入 public domain,公司手里的更像是 trade secret,而不是所有权。也有人质疑这种安排是否自相矛盾:既然 AI 生成物不可版权化,就谈不上再转让给雇主,最多只能靠合同和保密义务兜底。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

训练数据、开源许可与版权污染

另一大焦点是训练数据的来源和开源许可证污染。有人担心模型如果吞过 GPL/LGPL、MIT 代码,或从 pirated books、受限文本里学到模式,输出就可能带着原许可证或衍生作品的包袱,尤其在代码里一旦复现了相近片段、保留了版权声明,风险更明显。也有人提到 Bartz、chardet、Zarya of the Dawn 等例子,认为 provenance 和 commingling 问题并没有被法院彻底解决,只是当前执法难度高。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

尽调、日志与责任归属

一些评论把问题拉回实务:真正逼迫公司面对答案的,可能不是抽象判例,而是 M&A 尽调、license scan、DMCA 争议和审计记录。有人指出,提示历史、拒绝记录、修改痕迹会在诉讼和收购中成为证据,决定你能不能证明人类主导、或者是否有 good-faith 的版权主张。还有人强调,责任和版权不是同一件事:即便代码是 AI 生成的,真正把它发布、售卖或集成到产品里的组织仍然可能承担产品责任、合同责任或侵权责任。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

AI 正在改写软件工程流程

也有不少评论把它看成软件工程文化的转向:管理层在 FOMO 下催着上 Claude Code,结果是对代码库理解变浅、代码评审和注释被弱化,甚至一人从 backend 到 frontend 全包。支持者则认为 AI 让 one-man shop 更容易、在固定时间预算下能做出更高质量代码,像把手锯换成电锯。反对者则担心 AI 审 AI 会让错误抽象、重复函数和低质量测试被自动化放大。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

📚 术语解释

work-for-hire: 职务作品规则,雇员在职务范围内创作时,通常由雇主主张权利。

meaningful human authorship: 有意义的人类作者贡献,版权局用来判断 AI 协助作品是否足以算人类创作。

fair use: 合理使用抗辩,常被用来讨论训练数据复制或变换性使用是否合法。

derivative work: 衍生作品,基于原作改编、重写或生成的作品,权利可能受原作限制。

trade secret: 商业秘密,通过保密义务保护信息,而不是依靠版权公开主张。

GPL/copyleft: 要求衍生作品继续开源或保留相同许可条件的许可证体系。