AI 계약자 4만명 음성샘플 4TB 해킹
원제: 4TB of voice samples just stolen from 40k AI contractors at Mercor
왜 중요한가
AI 훈련용 음성 데이터와 신분증이 결합된 대규모 유출로 딥페이크 사기의 새로운 위험성을 보여준다.
사이버 범죄 그룹 Lapsus$가 4월 4일 AI 데이터 라벨링 플랫폼 Mercor에서 4만명의 계약자 음성 샘플 4TB를 탈취했다고 발표했다. 해킹된 데이터에는 음성 녹음과 정부발행 신분증이 함께 포함되어 있어 딥페이크 음성 생성에 악용될 우려가 높다.
해킹 그룹 Lapsus$가 AI 훈련 데이터 플랫폼 Mercor를 공격해 4만명 이상의 계약자들의 음성 생물인식 데이터를 탈취했다. 유출된 4TB 규모의 데이터에는 데이터 라벨링, 음성 녹음, AI 훈련용 검증 통화에 참여한 계약자들의 개인정보가 포함되어 있다. 특히 이번 유출의 심각성은 음성 샘플과 정부발행 신분증 스캔본이 함께 노출된 점이다. Mercor의 계약자 등록 과정에서 여권이나 운전면허증 스캔, 웹캠 셀카, 조용한 환경에서 대본을 읽는 음성 녹음을 모두 수집했기 때문이다. Wall Street Journal에 따르면 고품질 음성 복제는 15초 분량의 깨끗한 음성만 있으면 가능하지만, Mercor 녹음은 평균 2-5분에 달해 딥페이크 제작에 충분하다. 유출 후 10일 내에 5건의 집단소송이 제기됐으며, 원고들은 회사가 '훈련 데이터' 명목으로 영구적인 생체인식 정보를 수집했다고 주장하고 있다. 전문가들은 이 데이터가 은행 음성인증 우회, 고용주 대상 사기, 보험 사기 등에 악용될 수 있다고 경고했다.