OpenAI, 개인정보 탐지 모델 'Privacy Filter' 출시
원제: OpenAI Privacy Filter
왜 중요한가
AI 개발에서 개인정보 보호가 핵심 이슈로 부상하는 가운데 오픈소스 PII 탐지 모델 출시가 업계 표준 향상에 기여할 전망
OpenAI가 4월 22일 텍스트에서 개인식별정보(PII)를 탐지하고 마스킹하는 오픈웨이트 모델 'Privacy Filter'를 발표했다. 로컬 환경에서 실행 가능한 소형 모델로, 단일 패스로 긴 입력을 효율적으로 처리하며 PII-Masking-300k 벤치마크에서 최고 성능을 기록했다.
OpenAI가 개인정보 보호를 위한 AI 모델 'Privacy Filter'를 공개했다. 이 모델은 텍스트에서 개인식별정보를 탐지하고 삭제하는 기능을 제공하는 오픈웨이트 모델이다. 전통적인 PII 탐지 도구들이 전화번호나 이메일 주소 등 특정 패턴에 의존하는 것과 달리, Privacy Filter는 맥락을 이해하는 언어 모델 기반으로 더 정교한 개인정보 탐지가 가능하다. 공개 정보와 개인 정보를 구분하여 처리할 수 있으며, 구조화되지 않은 텍스트에서도 광범위한 PII를 탐지한다. 모델은 양방향 토큰 분류 아키텍처를 사용하며, 단일 패스로 모든 토큰을 라벨링한 후 제약된 비터비 절차로 일관된 스팬을 디코딩한다. 로컬 환경에서 실행 가능해 데이터가 외부 서버로 전송되지 않으며, PII-Masking-300k 벤치마크에서 최고 성능을 달성했다. OpenAI는 자사 개인정보 보호 워크플로우에서 이 모델의 파인튜닝 버전을 사용하고 있다.