HackerRank 오픈소스 ATS, 같은 이력서에 매번 다른 점수

원제: HackerRank open sourced its ATS. My resume scored 90/100. Oh wait 74. No – 88

왜 중요한가

AI 기반 채용심사 도구의 구조적 한계를 실증적으로 보여주며, 채용 프로세스에서 객관적 평가 불가능성과 운의 역할 증대 문제를 제기한다.

HackerRank가 공개한 오픈소스 채용심사 도구(ATS)가 동일한 이력서에 66~99점 사이로 매번 다른 점수를 매기는 문제를 드러냈다. 특정 커트라인에서 같은 이력서로 65% 불합격률을 보이며, LLM의 구조적 한계로 인한 비결정성이 원인인 것으로 파악됐다.

HackerRank의 공개 채용심사 도구(hiring-agent)를 테스트한 결과, 동일한 이력서가 실행할 때마다 다른 점수를 받는 현상이 확인됐다. 최초 실행에서 90/100을 받았지만, 코드 수정 후 74/100, 100회 반복 실행 시 66~99점으로 산포되었다. 85점 커트라인을 설정한 기업의 경우 같은 이력서로 65% 불합격률을 기록할 수 있다.

도구의 작동 방식은 PDF 이력서를 텍스트로 파싱한 후 LLM을 6회 호출해 개인정보, 경력, 교육, 기술, 프로젝트, 수상 등을 구조화된 형태로 추출한다. GitHub 프로필도 스캔하고 모든 정보를 종합해 채점(0~100점 + 최대 20점 보너스)한다.

세부 카테고리별 분석 결과, 기술 스킬은 98/100 실행에서 8/10으로 일관성 있게 평가되었다. 이는 React 경험 유무처럼 체크리스트 형태로 판단 가능하기 때문이다. 반면 프로젝트는 큰 편차를 보였으며, LLM이 건축적 복잡성이나 실무 배포 여부 같은 판단을 일관성 있게 내리지 못했다.

온도(temperature) 0.1은 LLM의 무작위성을 낮추는 설정이지만, 온도를 0으로 설정해도 개선되지 않았다. 경력 점수는 모든 실행에서 25/25로 일관적이었으나, 평가 기준이 단 2줄의 모호한 지침뿐이어 신입도 10년 경력자도 동점을 받는 문제가 있다. 반대로 프로젝트는 상세한 평가 기준이 있음에도 가장 불일관적이다.

출처

danunparsed.com — 원문 읽기 →