HackerRankのオープンソースATS、同じ履歴書で毎回異なるスコア
原題: HackerRank open sourced its ATS. My resume scored 90/100. Oh wait 74. No – 88
なぜ重要か
LLMベースの採用評価システムが採点の一貫性で課題を持つことが具体的に証明された。採用意思決定の属人性・不公平性が拡大する懸念が業界全体で高まるきっかけとなる。
HackerRankがオープンソース化した採用管理システム(ATS)を検証したところ、同一の履歴書でも毎回異なるスコアが算出されることが判明。100回の実行で66~99点と大きな変動を示し、85点を合格基準とする企業では同じ履歴書でも65%の確率で不合格となる。LLMを用いた採用スコアリングの根本的な課題が明らかになった。
HackerRankがGitHub上で公開したオープンソースATS「hiring-agent」について、実際の運用テストが行われた。同じ履歴書を100回処理させたところ、スコアは66~99点の範囲で大きく変動した。
このツールの仕組みは以下の通り。PDFからテキストを抽出し、大規模言語モデル(LLM)を6回呼び出して基本情報、職務経歴、教育背景、スキル、プロジェクト、受賞歴などの構造化データを抽出。GitHubプロフィールもスキャンして追加コンテキストとして含める。最終的にすべての情報をLLMに投入してスコアリング(100点満点+最大20点ボーナス)を行う。配点は職務経歴25点、オープンソース貢献35点、個人プロジェクト30点、技術スキル10点、起業経験などで最大20点。
スコアリング結果を細分化して分析すると、技術スキルは98回中98回で8/10と極めて安定している。これはチェックリスト形式で判定が客観的だからだ。対照的にプロジェクト評価は大きく変動。「アーキテクチャの複雑性に欠ける」と評価される場合と「実世界での運用を実証している」と評価される場合があり、LLMの出力は確率的である。
デフォルトモデルのgemma3:4bは温度0.1に設定されているが、これを0に下げても変動性は解決しない。GitHub上では温度0での6回連続実行で27、34、32、34、34、30というスコアバラツキが報告されている。Geminiを使用すると分布が48~64点に収まるが、合格基準が60点の場合でも28%の確率で不合格となる。
職務経歴スコアは全テストで25/25と完全に一致している。ただしプロンプトは2行の短さで、ルーブリック、具体例、評価基準が明示されていない。新人インターンも経験10年のエンジニアも同じく25/25を獲得する。