News Hacker|极客洞察

330 12 天前 app.oravys.com
😬Mercor 4TB 语音样本+ID泄露,4万 AI 合同工面临永久冒用
都收成永久密码了,出事后谁来重置?

🎯 讨论背景

这篇帖子讨论的是 Mercor(一个为 AI 数据标注和模型训练招募合同工的平台)被爆出约 4TB 语音样本和身份证扫描流出,涉及约 4 万名 contractor。原帖作者提到自己是看了 Lapsus$(以泄露数据和勒索著称的黑客团伙)把 Mercor 档案放上 leak site 后才写的文章,并强调这次不是单纯的密码泄露,而是可直接用于 deepfake 和远程冒充的“声纹+证件”组合。评论区进一步讨论 voice biometrics(语音生物识别)是否真能当作安全验证、银行和客服系统是否过度依赖它,以及这些数据在法律和合同上到底是不是“被同意”收集的。更大的背景则是 AI 行业为了训练和标注数据不断扩大采集范围,引发对 Datensparsamkeit(数据最小化)和长期隐私风险的争论。

📌 讨论焦点

生物识别外泄不可逆

很多人把这次泄露看成“永久性损伤”,因为语音和身份证扫描一旦外流,就不是改个密码能解决的。有人明确反对把 voice 当成 fingerprint 的类比,认为声音的可模仿性很强,但这恰恰说明它更像一个脆弱的身份因子,而不是可安全重置的凭证。评论还提到银行、brokerage、电话客服等场景已经在用 voice ID,因此泄露后的风险会直接落到金融和远程核验上。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

Mercor 过度采集与合同灰区

很多人认为 Mercor 收集了远超数据标注所需的信息,包括 voice、video、face 和 ID 扫描,所谓 explicit consent 只是藏在条款里。有人根据 WSJ 报道和 privacy policy 觉得这家公司处在合同灰区,甚至把 contractor 的本机和业务流量都纳入监控,投诉还可能触发责任或封号风险。更激烈的观点则认为这类平台本质上就是在 harvesting 个人数据,商业模式靠把合同工变成可训练、可出售的样本库。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

防护建议难落地

另一条主线是各种防护建议是否真的可操作。设置 code word、让亲友或财务联系人记住口令、或者让银行在账户上备注,听起来简单,但评论指出现实里客服和财务系统往往没有可靠的验证流程,人工也记不住每个客户。所谓“rotate your voice”也被认为几乎不可行,因为 voiceprint 本身并不像密码那样可随意更换,所以更现实的结论是别再把语音核验用在高风险场景里。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

隐私最小化与历史教训

不少评论把这件事放进更大的隐私史里理解,核心是“少收集就是少风险”。德语里的 Datensparsamkeit 被拿出来反复强调,配套联想到 Stasi、纳粹时期的记录管理、人口普查数据和 Google Street View 争议,说明欧洲对集中化记录有很强的历史警惕。有人进一步指出,政府和公司一旦掌握这些数据,下一届、下一个安全团队或下一次黑客入侵都会让它重新变成武器。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

AI 囤数据与训练来源争议

也有人把讨论拉回 AI 数据经济本身,认为这不是单次泄露,而是“越多数据越好”文化的后果。评论提到 data hoarding 早于 LLM,但 Neural Network、TTS 和生成式模型把规模和外溢速度放大了,让一人批量制造假内容、sock puppet 账号和合成媒体变得异常便宜。Mozilla Common Voice、voicebox 之类公共语音数据集也被拿来对比,说明训练数据来源本身就越来越难说清楚。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

📚 术语解释

voice biometrics(语音生物识别): 用语音特征核验身份的技术,便利但一旦泄露很难像密码那样重置。

声纹(voiceprint): 基于声音建立的身份特征集合,常用于电话客服或银行验证,但并非真正可更换的秘密。

Datensparsamkeit: 德语里的“数据最小化/数据节制”,强调只收集和保留必要数据。

deepfake: 用生成模型伪造音视频来冒充真人的合成内容,常被用于诈骗和身份冒用。

Lapsus$: 以入侵、勒索和公开泄露数据闻名的黑客团伙,这里指把 Mercor 档案放上 leak site 的来源。