加载失败
本争议源自 The New York Times(百年新闻机构)对 OpenAI(训练大型语言模型的公司)提起的版权诉讼,NYT 指控其文章被用作训练数据并有被模型再现的情形。法院在诉讼程序中下达 preservation order(证据保存令),并命令就一定规模的 ChatGPT(OpenAI 的对话产品)会话样本交付以供检索,双方就样本规模、匿名化与保密措施反复争辩。评论讨论交叉在技术实现(会话为产品特性、删除与备份机制、E2EE 可行性)与法律原则(discovery、fair use、法定赔偿与禁令)之间的张力,并提出独立审计、定向匹配和更严格的客户端加密等缓解方案。
大量评论强调被请求的 20M 聊天记录包含高度敏感信息,用户对“与 ChatGPT 的对话是私密的”抱有现实期待。法庭下达的保存令导致 OpenAI 必须保留包括“已删除”会话在内的记录(产品说明曾提到删除会话最多保留 30 天),这使得原本以为被删除的内容仍可能被调取。尽管有 protective order(保密令)和去识别化措施,评论者仍担忧律师或新闻机构通过发现程序获得线索后进行并行调查或撰稿,造成事实外泄或二次滥用。支持该观点的评论同时指出,原告通常只能由律师与专家查看这些记录,但这并不能完全消除隐私风险。
许多评论把焦点放在 OpenAI 本身:公司大规模抓取网页、新闻和私人代码来训练模型,现在却把“被诉取证”包装成为用户隐私发声,被批为虚伪。有人引用 OpenAI 隐私与服务条款指出公司保留广泛使用用户数据的权力并可在法律要求下交出数据,因此它试图用“保护用户隐私”的话术转移公众注意力。评论者把本次争议视为公司自食其果——若不滥采他人内容、不会陷入此类取证困境——并有人主张应对其更强监管或法律责任追究。整体论调是:别被公关话语蒙蔽,问题根源在于 OpenAI 的商业与数据策略。
技术类评论解释会话记录是 ChatGPT 产品体验的核心(界面左侧的会话历史、跨设备续接等),模型每次请求通常需要上下文,因此服务器端保存会话是设计选择而非“秘密采集”。“删除但保留 30 天”的做法被多次归因于备份/回收箱、冗余同步以及用于滥用调查(例如安全与滥用投诉)的需求,而不是单一的恶意目的。关于端到端加密(E2EE),有人提出可行架构(客户端加密、临时密钥、在内存中于短暂容器中解密处理),但评论也指出这会带来跨设备同步、多密钥管理、模型需要明文输入等复杂工程与可用性权衡。支持者举例 Proton/Lumo、Mullvad 思路并承认实现难度,反对者认为若真重视隐私就该从一开始采用更少可见性的设计。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
另一批评论支持或解释法律程序:在版权诉讼中,发现(discovery)用于量化侵权范围和计算损害赔偿,原告请求聊天日志是为证明复制/再现次数与市场影响。审判史显示双方就范围激烈博弈——NYT 最初要求的记录量更大(评论提到过 1.4B、120M 的历史请求),法院最终要求 OpenAI 提供经去识别化的 20M 样本并下达保存令,OpenAI 也在对样本做处理。评论强调有 protective order、去标识化和保密流程,但同时指出发现本身是司法衡量事实与法律要件的正常手段,而非单纯“挖隐私”。
评论中关于训练是否属于“fair use(公平使用)”存在分歧:有人引用已有两起加州判决认为训练可构成公平使用,认为模型对数据是变形、散失信息后再合成;反方指出若模型能逐字或高度复制新闻内容,就可能不构成公平使用且对出版社构成市场替代。NYT 在诉状中列举了模型能接近或复现其文章的示例,法官也允许部分版权主张继续推进,争点包括是否造成市场伤害和再现的频度与可预见性。结论是:法律并不清晰,法院需要事实证据(如聊天日志)来判断“变形”与“替代”的程度。
不少评论提出折中办法以减少隐私损害:让独立第三方或法庭指定专家在被告系统内进行匹配/检索、只返还匹配片段、用布隆过滤器(bloom‑filter)或模糊匹配代替整批交付,或用严格的去识别化与新闻编辑隔离(firewall)来限制访问。有人也建议更友好的用户端工具(按需本地存储、按会话加密或更细粒度的批量删除功能)以降低未来风险。反对意见提醒:中立方选择、去识别化质量与技术实现细节都能成为新的争议点,实际执行仍需法院与技术专家共同设计流程。
discovery(法律发现): 民事诉讼中的证据交换程序,法院可命令当事方提交与案件相关的记录与日志以供对方查验,范围与方法由法官裁定。
preservation order(保存令 / preservation order): 法院要求当事人在诉讼期间不得销毁特定数据或日志的命令,常见目的是防止关键证据在诉讼前被删除或篡改。
protective order(保密令 / protective order): 法庭下的限制性命令,规定被交付的证据如何访问、匿名化、存储与不得公开,用以保护当事人或第三方隐私与商业秘密。
de‑identification / anonymization(去标识化 / 匿名化): 通过删除或替换个人识别信息(如姓名、邮箱、IP)并采用技术处理降低可识别性,以在法律发现或数据共享时减少隐私风险,但并非绝对不可逆。
E2EE(End-to-end encryption,端到端加密): 客户端对消息加密,只有通信双方持有解密密钥使服务端无法直接读取明文;对需在服务器上明文处理的 AI 模型会带来架构与同步难题。
statutory damages / injunctive relief(法定赔偿 / 禁令救济): 版权法中的救济手段:法定赔偿是法律规定的固定或区间赔偿额,禁令救济是法院可命令停止侵权行为的衡平性裁决,两者是原告常求的补救项。