HackerRank 开源了其 ATS。我的简历得分为 90/100。哦等等 74。不 – 88

2026-06-29 1 阅读 sambellll
HackerRank 开源了其 ATS。我的简历得分为 90/100。哦等等74/100。不——88/100。实际上是83/100。招聘如何成为运气过滤器。 Dan Kinsky 2026 年 6 月 28 日 2 2 分享 HackerRank 的这个开源 ATS 最近火爆了:https://github.com/interviewstreet/hiring-agent 它出现在 LinkedIn 和 Reddit 上,获得了数百甚至数千个赞。 1 前几天一位同事向我提起这件事。我决定测试一下。首次运行:90/100。感觉还不错!我在对设置进行故障排除时散落了一些调试打印,因此我清理了它们并再次运行它。 74/100。同样的简历。相同的命令。我唯一改变的是删除打印语句。我禁用了 DEVELOPMENT_MODE 并将其放入循环中运行一百次。分数范围从 66 到 99。如果你们公司的分数线是 85,那么我的失败率是 65%。同样的简历,不同的运气。下面简要介绍该工具的工作原理:您的 PDF 被解析为文本。法学硕士会被调用六次来提取结构化信息——你的基础知识、工作经历、教育背景、技能、项目、奖项。它会提取您的 GitHub 个人资料,扫描您的顶级存储库,将它们作为额外的上下文附加。然后所有内容都会立即输入法学硕士进行评分。评分满分 100 分,最高加分 20 分:开源贡献 35 分,个人项目 30 分,工作经验 25 分,技术技能 10 分,创业经验、投资组合网站、技术博客等最多 20 分。默认模型是 gemma3:4b,在温度 0.1(较低)下运行,据说可以推动模型走向确定性输出。这是我在查看这些单独类别时发现的结果。看看技术能力:我在 100 次跑中的 98 次中得分为 8/10。近乎完美的一致性。怎么会?因为技术技能是一个清单。你要么了解 React,要么不了解。法学硕士没有什么可以评判的——一个五岁的孩子就可以符合这份清单。现在看看项目——有巨大的差异。法学硕士很难始终如一地做出这样的判断。有时我的项目“缺乏架构复杂性”,有时它们“演示现实世界的部署”。 LLM 吐出的结果是掷骰子。温度 0.1 已经很低,但即使降至温度 0 也无法解决这个问题。有人在 10 月份打开了一个 GitHub 问题,显示在温度 0 下连续六次运行的得分为 27、34、32、34、34、30。2 这种不确定性不是一个可以通过微调消除的错误,而是一个基本的设计缺陷。我担心这可能是模型的一部分。毕竟,gemma3:4b 是在我的机器上运行的本地模型。双子座的结果是分布更紧密——分数集中在 48 到 64 之间。但如果你的分数线是 60,那么你仍有 28% 的时间会失败,而这并不是你自己的过错。开源分数已经变得一致——这是一个合法的进步。但项目分数仍然到处都是。经验是我最关心的。 25/25。每一次跑步。我回去拿出了一份旧简历——上面有一份实习经历。还有25/25。线索就在提示中…… ### 生产(0-25 分) - 分析“工作”和“志愿者”部分的现实世界、实习或生产经验 - **特殊考虑**:为初创公司的创始人角色、联合创始人职位或早期工程师角色(前 10-20 名员工)提供额外的分数 整个事情有两行长。没有标题。没有例子。 15 分和 25 分之间没有固定的标准。有过一次实习经历的初级工程师的得分是 25/25。拥有十年分布式系统经验的首席工程师获得 25/25。我得到 25/25。经验有两条线,没有锚点——一致,但无用。项目有一个详细的标题和例子,但它是最吵闹的类别——不一致,也无用。不管你如何提示,有些事情法学硕士就是做不好。使用法学硕士将简历解析为结构化数据——太棒了,这就是他们所擅长的。用它来检查某人是否了解 Python — 太棒了。用一个来判断一个候选人的经历值18分还是24分?你会得到一个振动检查。人力资源团队、标准制定者和其他十几个举措几十年来一直试图避免的事情。开源+项目 65% 的权重也无济于事。我会选择拥有 30 年经验的工程师来构建 S3,而不是拥有两次实习经历和一个开源项目的工程师,但这个工具不会。我认识的一些最优秀的工程师所构建的东西从未最终出现在 GitHub 上。在任何人看向他们之前,他们的分数就已经消失了一半以上。如果您是一名工程师,对公司如何处理简历筛选有发言权:请务必谨慎使用人工智能筛选工具。无法区分的工具就不是质量过滤——它只是过滤。你还不如扔掉一半的简历,告诉应聘者你不要运气不好。感谢您的阅读。如果您发现有趣,请告诉我,否则