OpenAI、個人情報検出モデル「Privacy Filter」を公開
原題: OpenAI Privacy Filter
なぜ重要か
AIシステムの安全性向上において重要なプライバシー保護技術の民主化が進み、開発者が高品質な個人情報保護機能を容易に実装できる環境が整う。
OpenAIは4月22日、テキスト内の個人識別情報(PII)を検出・削除するオープンウェイトモデル「Privacy Filter」を発表した。従来のパターンマッチング手法を超える文脈認識機能を搭載し、ローカル実行が可能で高速処理を実現。PII-Masking-300kベンチマークで最先端の性能を達成している。
OpenAIが発表したPrivacy Filterは、個人識別情報(PII)の検出と編集に特化した小型モデルである。開発者が安全にAIを構築するための実用的なインフラストラクチャの一部として提供される。従来のPII検出ツールは電話番号やメールアドレスなどの固定フォーマットに依存する決定論的ルールを使用していたが、Privacy Filterは深い言語理解と文脈認識機能を組み合わせることで、より微妙な個人情報を検出できる。公開情報と私的個人に関する情報を適切に区別し、文脈に基づいた判断を行う。モデルはローカル実行が可能で、データがマシンから離れることなくPIIをマスクできる。長い入力テキストを効率的に処理し、単一パスで編集判断を行う。双方向トークン分類アーキテクチャを採用し、制約付きViterbiプロシージャでコヒーレントなスパンをデコードする。OpenAI自身もこのモデルの調整版をプライバシー保護ワークフローで使用している。開発者は独自環境でモデルを実行し、特定用途に合わせて微調整することが可能である。