😬 LLM偏爱自写简历，HR/ATS正在形成AI闭环

294 27 天前 arxiv.org

😬LLM偏爱自写简历，HR/ATS正在形成AI闭环

HR 都交给 LLM 了，还要人干嘛？

🎯 讨论背景

这篇讨论围绕一项研究：研究者让 LLM（大语言模型）改写 human resume 的 executive summary，再让另一个 LLM 在候选材料中做选择，结果显示模型更偏向它自己生成的版本。评论区争议集中在这是否真的代表招聘场景，因为真实流程里还会看完整经历、面试表现，以及 recruiter/ATS（Applicant Tracking System，简历筛选系统）的多轮筛选。背景里提到的 LinkedIn（职业社交平台）和 Indeed（求职网站）说明今天很多岗位已经先由自动化系统预筛。另一层背景是，LLM 早已被用来润色简历、写 job spec、做 scorecard，大家担心这会把招聘推向“写给机器看、机器再筛机器”的闭环。

📌 讨论焦点

实验设计被质疑

不少人认为这项研究并没有真正证明“LLM更喜欢LLM写的整份简历”，而只是让模型改写 human resume 的 executive summary，再单独评估这个摘要。这样做能减少对工作经历细节的篡改，但也把真正的招聘判断切成了一个过窄的局部问题。批评者指出，论文标题和摘要把结果说得比实际方法更强，最多只能说明模型更偏好自己写的摘要或措辞。也有人承认这种研究设计很难做得完美，因为既要控制事实不被改坏，又要避免把候选人整体画像删没。

[来源1] [来源2] [来源3] [来源4]

LLM自我偏好并非只在简历里出现

评论里有人把这看成一个更普遍的模型偏差：LLM生成的内容，在被另一个 LLM 评估时，往往会得到更高分。类似现象被拿来类比 design doc、code review、plan voting 甚至随机数传递后的行为，说明问题不只在简历，而在“让模型评判自己熟悉的表达方式”。一些人因此提醒，凡是采用 LLM-as-judge 的系统，都要警惕自我强化和同源偏好。也有人认为这至少符合模型训练目标：它会倾向于把自己更常产出的模式判成“更好”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

求职者用AI改简历确实可能更好过筛

多位留言者分享了个人经历：把简历交给 ChatGPT、Gemini 或其他服务重写后，招聘回复率明显上升。有人说原本手工写的简历几乎没回音，改过之后很快就有 recruiter 联系，说明至少在实战里 AI 版简历可能更适合当前筛选流程。也有人指出结果并不稳定，比如有人的 7 页 CV 反而被人类 recruiter 更喜欢，或者自己只是在保留事实后把语言稍微润色。整体上，这些 anecdote 说明“AI 简历更有效”很可能依赖行业、时间点和筛选环节，而不是普遍真理。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

ATS/HR过滤形成反馈回路

很多评论认为关键问题不是“AI 会不会看简历”，而是招聘链条里早已存在 ATS（Applicant Tracking System，简历筛选系统）和 recruiter 的自动化过滤。候选人开始学着给 LLM 写简历，HR 又用 LLM 打分，最后形成一种“写给机器看、由机器再筛机器”的闭环。有人直接说这是 LLM arms race：模型筛简历、模型改简历、再由模型继续筛，结果只会让同类文本越来越占便宜。也有人怀疑这会把组织质量拉低，因为通过筛选的不是更强的人，而是更会迎合过滤器的人。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

简历信号、metrics 与 corpo speak 争论

评论里对什么算“好简历”分歧很大：有人喜欢带有明确 impact 的数字，比如 P99 latency 从 2s 降到 180ms；也有人觉得每条都堆 metrics 反而像 buzzword bingo。另一类争议是关键词列表到底是必要信号还是负面信号：对一些筛选者来说，写满 Redux、React、Kubernetes 只是 checklist mentality，但另一些人指出，很多 HR 和 ATS 早就靠这些关键词过初筛。还有人认为 LLM 会把表达统一成更“corporate”的腔调，语法更顺、词汇更密，但对人类读者未必更真诚。整体上，大家在争论的其实是：什么能说明能力，什么只是适配筛选器。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16]

招聘制度本身的偏见与替代方案

也有留言把矛头指向更早就存在的问题：招聘本来就充满偏见、nepotism、关系网和中间人，LLM 只是把这种不透明再自动化一层。有人从隐私和合规角度提醒，在 GDPR（欧盟通用数据保护条例）框架下，求职者可以要求知道自己是否被自动化决策筛掉，并要求 meaningful human interaction，但现实中很难真的执行。另一派则把简历视为低信噪比工具，主张改成 standardized tests 或 examination consortia 来替代，但也有人指出这会迅速演化成 Leetcode-maxxing 或更难以验证的作弊竞赛。整体上，大家并不相信现有流程会因“更智能”而更公平。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

📚 术语解释

ATS（Applicant Tracking System）: 招聘简历筛选系统，先用规则或模型对简历打分、排序，再交给人类复核。

LLM-as-judge: 用一个 LLM 去评价、排序或打分另一个 LLM 生成的内容，容易产生同源偏好。

原文链接 Hacker News 讨论

AI Work LLMs resumes AI-generated resumes training data arXiv

News Hacker｜极客洞察