HackerRank 开源了其 ATS。我的简历得分为 90/100。哦等等 74。不

HackerRank 开源了其 ATS。我的简历得分为 90/100。哦等等74/100。不——88/100。实际上是83/100。招聘如何成为运气过滤器。 Dan Kinsky 2026 年 6 月 28 日 2 2 分享 HackerRank 的这个开源 ATS 最近火爆了：https://github.com/interviewstreet/hiring-agent 它出现在 LinkedIn 和 Reddit 上，获得了数百甚至数千个赞。 1 前几天一位同事向我提起这件事。我决定测试一下。首次运行：90/100。感觉还不错！我在对设置进行故障排除时散落了一些调试打印，因此我清理了它们并再次运行它。 74/100。同样的简历。相同的命令。我唯一改变的是删除打印语句。我禁用了 DEVELOPMENT_MODE 并将其放入循环中运行一百次。分数范围从 66 到 99。如果你们公司的分数线是 85，那么我的失败率是 65%。同样的简历，不同的运气。下面简要介绍该工具的工作原理：您的 PDF 被解析为文本。法学硕士会被调用六次来提取结构化信息——你的基础知识、工作经历、教育背景、技能、项目、奖项。它会提取您的 GitHub 个人资料，扫描您的顶级存储库，将它们作为额外的上下文附加。然后所有内容都会立即输入法学硕士进行评分。评分满分 100 分，最高加分 20 分：开源贡献 35 分，个人项目 30 分，工作经验 25 分，技术技能 10 分，创业经验、投资组合网站、技术博客等最多 20 分。默认模型是 gemma3:4b，在温度 0.1（较低）下运行，据说可以推动模型走向确定性输出。这是我在查看这些单独类别时发现的结果。看看技术能力：我在 100 次跑中的 98 次中得分为 8/10。近乎完美的一致性。怎么会？因为技术技能是一个清单。你要么了解 React，要么不了解。法学硕士没有什么可以评判的——一个五岁的孩子就可以符合这份清单。现在看看项目——有巨大的差异。法学硕士很难始终如一地做出这样的判断。有时我的项目“缺乏架构复杂性”，有时它们“演示现实世界的部署”。 LLM 吐出的结果是掷骰子。温度 0.1 已经很低，但即使降至温度 0 也无法解决这个问题。有人在 10 月份打开了一个 GitHub 问题，显示在温度 0 下连续六次运行的得分为 27、34、32、34、34、30。2 这种不确定性不是一个可以通过微调消除的错误，而是一个基本的设计缺陷。我担心这可能是模型的一部分。毕竟，gemma3:4b 是在我的机器上运行的本地模型。双子座的结果是分布更紧密——分数集中在 48 到 64 之间。但如果你的分数线是 60，那么你仍有 28% 的时间会失败，而这并不是你自己的过错。开源分数已经变得一致——这是一个合法的进步。但项目分数仍然到处都是。经验是我最关心的。 25/25。每一次跑步。我回去拿出了一份旧简历——上面有一份实习经历。还有25/25。线索就在提示中…… ### 生产（0-25 分） - 分析“工作”和“志愿者”部分的现实世界、实习或生产经验 - **特殊考虑**：为初创公司的创始人角色、联合创始人职位或早期工程师角色（前 10-20 名员工）提供额外的分数整个事情有两行长。没有标题。没有例子。 15 分和 25 分之间没有固定的标准。有过一次实习经历的初级工程师的得分是 25/25。拥有十年分布式系统经验的首席工程师获得 25/25。我得到 25/25。经验有两条线，没有锚点——一致，但无用。项目有一个详细的标题和例子，但它是最吵闹的类别——不一致，也无用。不管你如何提示，有些事情法学硕士就是做不好。使用法学硕士将简历解析为结构化数据——太棒了，这就是他们所擅长的。用它来检查某人是否了解 Python — 太棒了。用一个来判断一个候选人的经历值18分还是24分？你会得到一个振动检查。人力资源团队、标准制定者和其他十几个举措几十年来一直试图避免的事情。开源+项目 65% 的权重也无济于事。我会选择拥有 30 年经验的工程师来构建 S3，而不是拥有两次实习经历和一个开源项目的工程师，但这个工具不会。我认识的一些最优秀的工程师所构建的东西从未最终出现在 GitHub 上。在任何人看向他们之前，他们的分数就已经消失了一半以上。如果您是一名工程师，对公司如何处理简历筛选有发言权：请务必谨慎使用人工智能筛选工具。无法区分的工具就不是质量过滤——它只是过滤。你还不如扔掉一半的简历，告诉应聘者你不要运气不好。感谢您的阅读。如果您发现有趣，请告诉我，否则