News Hacker|极客洞察

294 2 天前 arxiv.org
😬LLM偏爱自写简历,HR/ATS正在形成AI闭环
HR 都交给 LLM 了,还要人干嘛?

🎯 讨论背景

这篇讨论围绕一项研究:研究者让 LLM(大语言模型)改写 human resume 的 executive summary,再让另一个 LLM 在候选材料中做选择,结果显示模型更偏向它自己生成的版本。评论区争议集中在这是否真的代表招聘场景,因为真实流程里还会看完整经历、面试表现,以及 recruiter/ATS(Applicant Tracking System,简历筛选系统)的多轮筛选。背景里提到的 LinkedIn(职业社交平台)和 Indeed(求职网站)说明今天很多岗位已经先由自动化系统预筛。另一层背景是,LLM 早已被用来润色简历、写 job spec、做 scorecard,大家担心这会把招聘推向“写给机器看、机器再筛机器”的闭环。

📌 讨论焦点

实验设计被质疑

不少人认为这项研究并没有真正证明“LLM更喜欢LLM写的整份简历”,而只是让模型改写 human resume 的 executive summary,再单独评估这个摘要。这样做能减少对工作经历细节的篡改,但也把真正的招聘判断切成了一个过窄的局部问题。批评者指出,论文标题和摘要把结果说得比实际方法更强,最多只能说明模型更偏好自己写的摘要或措辞。也有人承认这种研究设计很难做得完美,因为既要控制事实不被改坏,又要避免把候选人整体画像删没。

[来源1] [来源2] [来源3] [来源4]

LLM自我偏好并非只在简历里出现

评论里有人把这看成一个更普遍的模型偏差:LLM生成的内容,在被另一个 LLM 评估时,往往会得到更高分。类似现象被拿来类比 design doc、code review、plan voting 甚至随机数传递后的行为,说明问题不只在简历,而在“让模型评判自己熟悉的表达方式”。一些人因此提醒,凡是采用 LLM-as-judge 的系统,都要警惕自我强化和同源偏好。也有人认为这至少符合模型训练目标:它会倾向于把自己更常产出的模式判成“更好”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

求职者用AI改简历确实可能更好过筛

多位留言者分享了个人经历:把简历交给 ChatGPT、Gemini 或其他服务重写后,招聘回复率明显上升。有人说原本手工写的简历几乎没回音,改过之后很快就有 recruiter 联系,说明至少在实战里 AI 版简历可能更适合当前筛选流程。也有人指出结果并不稳定,比如有人的 7 页 CV 反而被人类 recruiter 更喜欢,或者自己只是在保留事实后把语言稍微润色。整体上,这些 anecdote 说明“AI 简历更有效”很可能依赖行业、时间点和筛选环节,而不是普遍真理。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

ATS/HR过滤形成反馈回路

很多评论认为关键问题不是“AI 会不会看简历”,而是招聘链条里早已存在 ATS(Applicant Tracking System,简历筛选系统)和 recruiter 的自动化过滤。候选人开始学着给 LLM 写简历,HR 又用 LLM 打分,最后形成一种“写给机器看、由机器再筛机器”的闭环。有人直接说这是 LLM arms race:模型筛简历、模型改简历、再由模型继续筛,结果只会让同类文本越来越占便宜。也有人怀疑这会把组织质量拉低,因为通过筛选的不是更强的人,而是更会迎合过滤器的人。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

简历信号、metrics 与 corpo speak 争论

评论里对什么算“好简历”分歧很大:有人喜欢带有明确 impact 的数字,比如 P99 latency 从 2s 降到 180ms;也有人觉得每条都堆 metrics 反而像 buzzword bingo。另一类争议是关键词列表到底是必要信号还是负面信号:对一些筛选者来说,写满 Redux、React、Kubernetes 只是 checklist mentality,但另一些人指出,很多 HR 和 ATS 早就靠这些关键词过初筛。还有人认为 LLM 会把表达统一成更“corporate”的腔调,语法更顺、词汇更密,但对人类读者未必更真诚。整体上,大家在争论的其实是:什么能说明能力,什么只是适配筛选器。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16]

招聘制度本身的偏见与替代方案

也有留言把矛头指向更早就存在的问题:招聘本来就充满偏见、nepotism、关系网和中间人,LLM 只是把这种不透明再自动化一层。有人从隐私和合规角度提醒,在 GDPR(欧盟通用数据保护条例)框架下,求职者可以要求知道自己是否被自动化决策筛掉,并要求 meaningful human interaction,但现实中很难真的执行。另一派则把简历视为低信噪比工具,主张改成 standardized tests 或 examination consortia 来替代,但也有人指出这会迅速演化成 Leetcode-maxxing 或更难以验证的作弊竞赛。整体上,大家并不相信现有流程会因“更智能”而更公平。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

📚 术语解释

ATS(Applicant Tracking System): 招聘简历筛选系统,先用规则或模型对简历打分、排序,再交给人类复核。

LLM-as-judge: 用一个 LLM 去评价、排序或打分另一个 LLM 生成的内容,容易产生同源偏好。