News Hacker|极客洞察

335 72 天前 github.com
⚖️chardet 用 Claude 重写并改为 MIT,引发 LGPL、版权与供应链争议
跑个 AI 就能把别人的 LGPL 改成 MIT?

🎯 讨论背景

chardet(用于检测文本字符编码的 Python 库)原先以 LGPL 发布。最近维护者在一次大合并(commit 7e25bf4)中声称用 Claude(Anthropic 的 LLM)辅助“从头重写”并把许可证改为 MIT,引发原作者与社区质疑。争议涉及是否构成对 LGPL 代码的衍生作品、clean‑room 抗辩在法律上作用几何、以及 LLM 训练数据是否“污染”了输出并使其成为派生作品。同时大量直接替换主分支的操作带来了供应链审计、兼容性与治理伦理的实际担忧。

📌 讨论焦点

版权法与 clean‑room 抗辩的法律争议

讨论的法律核心是:维护者宣称“从头重写”并改许可是否能免除原 LGPL 的约束。多位评论指出独立创作(independent creation)在版权法中是有效抗辩,所谓的 clean‑room 只是便于举证的防御策略而非法律上的必要条件;法院关注的是真正被复制的是否为原作的受保护表达,而非单纯接触过原码。另一方面也有观点强调实际诉讼的现实:当存在明显相似性、维护者有访问原始代码的记录、或以相同包名/版本号发布时,原告在举证上处于有利位置,发现程序(discovery)会放大证据影响。LGPL 的文字也被反复提及:若新实现被认定为“基于该库的作品”,许可证要求继续以 copyleft 方式发布,不能单方面改为 MIT。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

LLM 训练数据、输出权属与“污染(taint)”问题

评论广泛讨论 LLM(仓库里有 Claude.md 指示使用 Claude)的训练数据是否把原始代码“带入”模型,从而使生成结果成为衍生作品;有人指出“tainted rewrite”并非已有法律术语,法律争点仍是能否证明未经授权的复制或衍生。美国版权局和近期个案被引用来说明:若缺乏足够的人类创作投入,纯粹由模型直接输出的内容可能难以获得版权,但如果人工在 prompt、选择与修改环节投入创造性劳动,则人类可能成为作者或共同作者。整体共识是法律尚不明确:模型权重是否构成派生作品、训练集中包含开源代码是否必然导致侵权,都需要法院逐案裁定;技术层面还有更细的问题,例如模型可能通过微妙的 token/措辞在规格中“嵌回”原始表达,增加举证难度。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

供应链安全与代码质量担忧

社区对此次一次性大规模替换主分支的操作过程与质量表示强烈忧虑:合并提交(7e25bf4)一次性改动数千个文件、几十万行代码,被形容为不可审计、类似供应链攻击。具体担心包括兼容性破坏(注:评论举例新旧输出在编码标识上出现差异,如 'utf-16be' vs 'utf-16-be'、某些 ascii 判定变为 Windows-1252)、旧测试被移除、CI/校验不充分,以及维护者直接在主分支完成大改而非在新仓库逐步演进。即便出于善意,这种做法会给依赖生态(如 pip 的依赖树)带来高风险,多数人呼吁更透明的流程、保留旧版本或另建新仓库以便审计。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

企业护城河、商业应对与法律策略

有人以咨询案例说明现实风险:工程师使用 Claude Code 从前端/API 在一周内复刻了一个 SaaS 后端,功能接近但需打磨,表明 AI 大幅降低了复刻成本。对策上有多种声音:建议尝试专利保护(但普通算法通用化难以专利)、依赖 DMCA 或 EULA 禁止逆向工程、强化非代码护城河(销售渠道、运维/合规/支持)、或接受被模仿并转而竞争服务质量与速度。评论指出法律诉讼成本高且结果不确定,实践中多数公司更依赖流程与商业模式保护,而不同法域(美英等)对 AI 输出与作者认定存在差异,跨境部署会影响策略选择。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

伦理、维护者责任与开源社区规范

很多评论认为这次在原仓库直接替换并改许可证的行为是对原作者与社区的不尊重:指责点包括未征得历史贡献者同意、以相同包名/版本号覆盖、用 AI 快速 takeover 并移除旧测试等。反方会说历史上也有合理的重写或许可变更案例(例如为便于被纳入标准库或吸引更多维护者),但多数人认为即便法律边界未明,社区信任与治理成本已经受损。总体呼声是希望维护者采取更谨慎且透明的流程——保留旧版本、另建新仓库或征询原作者与贡献者许可——以维护开源生态的合作基础。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

📚 术语解释

clean‑room(隔离实现): 一种法律与工程实践:让一组人/流程在完全隔离、无法接触原始实现的情况下根据规格实现功能,从而在诉讼中以“独立创作”作为抗辩,便于举证但并非法律上唯一必须的条件。

LGPL(GNU Lesser General Public License): 一种 copyleft 式开源许可证,允许将库用于闭源软件但要求对库本身的修改或“基于该库的作品”继续以相同许可证发布,单方改为更宽松许可证通常需所有版权持有人同意。

derivative work(衍生作品): 版权法术语,指在原作受保护表达上作出复制、翻译或改编的作品;法律判断侧重是否复制了受保护的表达(expression)而非通用想法或功能(idea/接口)。

fair use(合理使用): 美国版权法中的例外原则,可在特定情形下允许复制或改写(例如为互操作或教学),在 API/实现案(如 Google v. Oracle)中是重要抗辩点,但适用需法院逐案判断。

license‑washing / LLM‑washing: 社区用语,指利用 LLM 辅助“重写”代码并试图以新、宽松许可证替代原有 copyleft 限制的做法;争议点在于该流程是否构成实质性原创或只是规避许可义务。