⚖️ AI 辅助重写改许可证：chardet 的 MIT 化引发 GPL/LGPL、clean‑room 与训练数据污染法律争议

329 72 天前 tuananh.net

⚖️AI 辅助重写改许可证：chardet 的 MIT 化引发 GPL/LGPL、clean‑room 与训练数据污染法律争议

AI 说没抄就算“干净”？法官也买单？

🎯 讨论背景

本次争议源于 chardet（一个 Python 字符编码检测库）维护者宣称用 Claude（Anthropic 的 LLM）从头重写并将 v7.0.0 以 MIT 许可证发布，引发是否真正“clean‑room”以及是否违反原先基于 LGPL/GPL 的版权义务的讨论。评论围绕两条主线：一是模型训练/权重是否已“污染”原始实现（导致输出构成衍生作品），二是现有判例与法律（包括 Copyright Office 的“人类著作权”立场、Judge Alsup 的部分 fair use 判断、以及 Google v. Oracle 的 SS&O 讨论）未能给出统一答案。实际争论还涉及技术证据（提交记录、prompt 指令、测试套件的复用与 docstring 的逐字重合）、可行的缓解手段（可验证的 permissive 语料、去记忆/掩码技术、审计与相似度检测）以及政策层面的治理与赔偿机制。理解本讨论需同时掌握许可证类型（MIT vs GPL/LGPL）、clean‑room 的历史含义以及 LLM 训练与推理在法律事实认定上的差异。

📌 讨论焦点

训练数据污染与清洁隔离的法律风险

不少评论认为用 LLM（如 Claude）做“从零重写”并不能保证干净隔离，因为模型权重很可能保留原始 LGPL/GPL 代码的统计“印记”。维护者自身承认长期维护原库、在空仓库中用 Claude 迭代并且复用了 chardet 的测试数据，这被视为破坏传统 clean‑room 要求的关键事实。评论指出，若输出表达上有实质相似，下游用户和发布者将承担许可风险；另外不同 API/服务计划下厂商的赔偿条款（indemnity）也影响风险分担。

[来源1] [来源2] [来源3] [来源4]

判例与法律框架仍不确定（训练 vs 输出要分开看）

讨论强调司法实践对“训练是否为 fair use”与“模型输出是否侵权”分别作出不同判断：部分下级法院在特定案情下认定训练可属 fair use，但这并不自动使输出免于侵权。最高法院拒绝受理相关上诉并未统一联邦层面规则，版权权利人与各地区上诉法院的分歧可能并存。评论多次提到现有案例（如 Google v. Oracle、Warhol 等）只提供片段性先例，法院在不同事实框架下会做出不同裁量。

[来源1] [来源2] [来源3] [来源4]

clean‑room 的法律与实践争议

历史上 clean‑room 指通过两个相互隔离的团队、以规范而非实现重写软件以避免信息流导致的版权指控（典型例子涉及 IBM BIOS/Compaq、NEC v. Intel）。评论指出传统流程依赖可被记录的人为分工与链路证明，而把 LLM 当作“开发者”会破坏这种隔离，因为模型可能已在训练阶段吸收原实现的特征。也有人提出用黑盒逆向、测试驱动（test‑suite）与严格链路记录来逼近 clean‑room，但多数人认为在法庭上仍属高风险且需详尽可证明的流程与证据。

[来源1] [来源2] [来源3] [来源4] [来源5]

对 Copyleft / 开源的潜在威胁

一部分评论认为若把 AI 重写视为合法的再许可路径，将削弱 copyleft（如 GPL/LGPL）的约束力：任意人可用 LLM 将受限项目重写并改用 MIT/专有许可，从而绕开强制开源条款。这种能力会改变开源激励——贡献者的署名、作为职业资历的引用价值与许可证保障都可能受损，从而促使部分作者选择不再公开发布或转为闭源。反对者认为长期防线仍在社区审计、法庭对‘实质相似’的判断以及对滥用的追责，但总体担忧显著。

[来源1] [来源2] [来源3] [来源4]

可行的技术与商业缓解策略

评论提出多种缓解思路：技术上有内容分片哈希/随机遮罩以减少逐字记忆的思路（content‑based hashing mask），也有人建议构建并验证仅用 permissive 或公共领域语料训练的可审计模型以证明未见受限代码。商业与合约手段包括要求模型提供方公开训练可证伪性、为付费客户提供赔偿（indemnity）或签订许可分成协议。实务建议是把多种措施叠加：在生成前后做相似度检测、保留 prompt/日志以便取证并结合人工代码审计与法律审查。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

监管与现实政治：全面禁止难度大

多条评论认为治理难度很高——大量模型已被训练、行业利益与国家势力参与，使得短期内通过全面禁令或诉讼根治不现实。有人主张通过税收、行业协议或把模型权重开源等制度设计来分配收益，也有观点倾向由社区与公益法律组织（如 EFF）发起测试性案件以推动判例发展。地域司法差异、平台封闭策略与大公司诉讼资源将共同塑造未来规则，简单的技术解决往往难以独立解决制度问题。

[来源1] [来源2] [来源3]

chardet 案的具体事实与证据点

针对 chardet 的争议有大量可核查事实：维护者的提交与说明显示重写过程中使用了原项目的测试套件，并在 prompt 中指示模型抓取并参考原仓库的 charsets.py，这被批评者视为直接依赖原实现的证据。社区也发现 docstring/注释存在逐字重合，而一些相似度工具（如 JPlag）在检测时会丢弃注释，因此可能低估相似程度。这些技术细节与提交记录成为判断此次重写是否真正“从零开始”的关键证据。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

clean‑room implementation（clean‑room 实现）: 一种工程与法律上的隔离重实现流程：由“脏”团队分析原实现并输出不含可版权表达的规范，再由与原实现隔离的“净”团队根据规范实现新代码以降低被认定为衍生作品的风险。

copyleft（如 GPL / LGPL）: 一类开源许可证（GPL/LGPL）通过要求衍生作品也以相同或兼容条款开源来保护软件自由，被称为 copyleft，与宽松许可证（如 MIT）形成对照。

derivative work（衍生作品）: 版权法术语，指基于已有作品形成的表达形式——在软件中通常指新实现在表达上与原实现有实质相似或包含原始表达的情况，触发原许可证义务。

training data contamination（训练数据污染 / model contamination）: 指模型在训练阶段吸收了受限或有版权的源代码/文本，从而在推理时可能生成与该训练输入高度相似或逐字复制的输出，难以证明与原实现无关。

human‑authorship requirement（人类著作权要求）: 版权机关与若干判例提出的原则：著作权通常要求由人类创作，机器自身不能成为权利人，这影响 AI 生成物的著作权归属但不直接解决训练或输出是否侵权的问题。

SS&O (Structure, Sequence and Organization): 讨论 API 与实现可版权性时常用的概念（structure, sequence and organization），在 Google v. Oracle 案中成为争论焦点，最高法院对其适用进行了限定。

原文链接 Hacker News 讨论

AI Policy Programming AI relicensing open-source GPL LGPL MIT AGPL clean-room copyright SCOTUS

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

训练数据污染与清洁隔离的法律风险

判例与法律框架仍不确定（训练 vs 输出要分开看）

clean‑room 的法律与实践争议

对 Copyleft / 开源的潜在威胁

可行的技术与商业缓解策略

监管与现实政治：全面禁止难度大

chardet 案的具体事实与证据点

📚 术语解释

📚 相似内容