🤦 OpenAI称为“保护用户隐私”反对NYT调取2000万会话，引发对采集、保存与版权取证的激烈争论

263 3 小时前 openai.com

🤦OpenAI称为“保护用户隐私”反对NYT调取2000万会话，引发对采集、保存与版权取证的激烈争论

把隐私交给把你内容偷去的人，你还信任吗？

🎯 讨论背景

纽约时报（NYT）对OpenAI提出版权诉讼，指控其在训练和生成中使用了大量未授权新闻内容并在某些情形下可近似复现原文。NYT在证据发现阶段要求调取大量ChatGPT会话日志，法庭随后下达保全令并就样本规模、匿名化和交付流程反复争论。OpenAI以保护用户隐私为由向公众陈述异议，但评论区围绕法律程序（discovery、preservation order）、产品设计（会话历史、30天保留）与技术可行性（E2E、备份与删除难题）展开激烈讨论，既有对新闻机构权利的支持，也有对大厂数据采集与公关动机的强烈质疑。

📌 讨论焦点

OpenAI的矛盾与公关伎俩

大量评论把OpenAI这篇公开信看作伪善的公关操作：公司一方面宣称要“保护用户隐私”，另一方面又长期收集大量会话并在隐私政策与ToS中保留广泛使用权。批评者提到公司高层与顾问阵容、数据建档与潜在商业化路径，认为这些事实与“我们保护隐私”的表述自相矛盾。整体观点是：公开信更像为减轻法律与舆论压力争取同情，而非真心构建无可及的隐私防护。

[来源1] [来源2] [来源3] [来源4] [来源5]

保全令与取证范围争议

许多评论关注法院命令的法律细节：法庭下达的是保全（preservation）与发现（discovery）令，原则上是保存现存日志而非强制新增日志或开启隐藏记录。讨论里多次提到原始取证请求规模巨大（意见中出现过1.4B、120M等数字），双方就范围和审查方式争执后，法院最终确定了更小规模的样本（约2000万条）与匿名/编辑流程。争议的技术与法律点在于：OpenAI在收到保全令后禁用删除功能、双方就匿名化成本及审查流程继续争论，法院如何平衡证据获取与用户隐私成为焦点。

[来源1] [来源2] [来源3] [来源4] [来源5]

产品设计与用户隐私预期

不少人指出会话历史是ChatGPT产品的核心功能：界面左侧历史、跨设备延续、以及基于会话的提醒/调度功能都要求服务器保存对话上下文。OpenAI界面与说明亦表明“临时聊天最长保留30天”，这被解读为公司在便利性与隐私之间的设计取舍。有人建议引入客户端加密或本地存储（例如Signal式的E2E），但也有技术论点指出模型端通常需要明文上下文来维持连续对话，因而设计上存在权衡。

[来源1] [来源2] [来源3] [来源4] [来源5]

技术可行性：删除、备份與端到端加密的难题

技术讨论给出具体运维原因解释为什么“删除”并非一键即可：大规模系统存在冗余备份、快照、append-only 存储或数据库回收站（recycle bin），跨机房同步和恢复时要保证可靠性，导致完全擦除可能需要数日到数周的异步流程。有人举出K-V cache、快照重建、手动回放删除记录等操作复杂性，并指出在多设备场景下实现真正的客户端端到端加密(E2E)以供模型使用并不简单。这些细节被用来解释为何OpenAI会设定“短期保留”策略（例如评论中反复提到的30天）而非即时永久删除。

[来源1] [来源2] [来源3] [来源4] [来源5]

NYT的版权主张与发现证据的正当性

支持新闻方的评论强调NYT提交了示例并声称模型有时能近似复现其文章段落，法庭在若干程序上认定存在足够证据以让主要版权主张继续审理。NYT要通过发现获取会话以量化侵权发生的频率、计算法定或实际损害、并评估对其市场的影响（这是fair use分析的重要一环）。反对者回应称那些复现通常是边缘案例或已被模型方修补，且NYT的prompt-engineering实验未必代表常规用户行为，但总体上发现的目的在于证明确实有多少复制、是否构成替代并据此决定赔偿或禁令。

[来源1] [来源2] [来源3] [来源4] [来源5]

可行的中间方案与法庭保护措施

评论中提出若干折中方案：由中立第三方在受限环境内匹配NYT文章与会话、用 bloom-filter/哈希分片先筛选疑似命中、或采用保护令+逐条匿名化/红action来减少暴露。支持者认为这些办法能兼顾取证与隐私，反对者担心中立方难以真正中立、自动化比对仍会泄露敏感上下文或被用于“并行构建”调查。法庭已有的protective order和材料编辑/匿名化机制被多次提及，但对其在实际操作中能否完全防止滥用存在怀疑。

[来源1] [来源2] [来源3] [来源4]

公众分裂：隐私保护 vs 著作权执行

评论区明显分裂：一部分人把重心放在用户隐私与对抗大公司滥权，称大规模调取私人会话是“拖网式”入侵；另一部分人认为若OpenAI未经授权吸收并能输出新闻内容，媒体通过法律取证是正当行为。还有大量情绪化反应——有人认为媒体是逐利的中间人并批评其付费墙策略，也有人完全不信任OpenAI的动机。总体上这场争论是隐私期望、法律权利与商业模式之间的价值冲突在网络时代的集中爆发。

[来源1] [来源2] [来源3] [来源4] [来源5]

合理使用与判例的不确定性

关于fair use（合理使用）与判例的讨论并不一致：部分评论引用已有加州案件或判决支持“用于训练”的情形可构成合理使用，但也有人指出先例并非普遍适用，本案事实（模型能否逐字复制、是否替代市场）会极大影响法官裁量。法官必须在用途、作品性质、所用比例及对市场影响等四因素之间权衡，因此法律路径既给OpenAI留有抗辩空间，也为新闻机构提供了索赔与禁止性救济的可能性。评论普遍认为法律并未给出清晰的适用于大型生成模型的终极答案，结果高度不确定。

[来源1] [来源2] [来源3]

📚 术语解释

discovery（法律发现 / 证据披露）: 民事诉讼中一方可依法要求对方交付相关证据（如日志、通信记录、文档），范围与方法由法庭决定，常伴随争议与限制性裁定。

preservation order（保全令 / 保存令）: 法院命令被告在诉讼期间不得删除或改变指定数据，要求保留现存记录以便后续审查或交付证据。

protective order（保护令 / 保密令）: 法庭对发现材料施加的保密与使用限制，规定匿名化、红action、仅限指定人员查阅等，以减少敏感信息外泄风险。

end-to-end encryption（端到端加密 / E2E）: 客户端在本端加密数据，使服务端无法解密原文；理论上能阻止服务提供者读取会话，但在多设备同步与模型需服务器端明文上下文时实现复杂。

fair use（合理使用）: 美国著作权法中的例外，法院通过用途、性质、所用比例及对市场影响四因素来判断未经授权使用（如用于训练AI）是否可被允许，是本案争议核心之一。

原文链接 Hacker News 讨论

AI Security Policy OpenAI New York Times ChatGPT user privacy discovery chat logs copyright training data scraping paywall

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

OpenAI的矛盾与公关伎俩

保全令与取证范围争议

产品设计与用户隐私预期

技术可行性：删除、备份與端到端加密的难题

NYT的版权主张与发现证据的正当性

可行的中间方案与法庭保护措施

公众分裂：隐私保护 vs 著作权执行

合理使用与判例的不确定性

📚 术语解释

📚 相似内容