AnthropicのFableに厳しすぎる制限、セキュリティ研究者が批判
原題: Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable
なぜ重要か
AIモデルの安全性と実用性のバランスが課題として浮き彫りに、サイバーセキュリティ分野でのAI活用の障壁となる可能性
Anthropicが6月10日に公開したサイバーセキュリティモデルFableについて、研究者らが過度に厳しい制限に不満を表明。ブログ記事の読解やセキュアコード記述など無害な作業でもガードレールが作動し、Claude Opus 4.8にダウングレードされると報告されている。
AnthropicのサイバーセキュリティモデルMythosの公開版として火曜日にリリースされたFableに対し、セキュリティ専門家から批判の声が上がっている。IBM X-Forceの研究者Valentina Palmiottiは「サイバー関連と関係ありそうな要求はすべて拒否される。ブログ記事を読むような無害なタスクでさえも」と指摘した。
Fableのガードレールが発動すると、チャットが一時停止し「安全措置がこのメッセージをサイバーセキュリティまたは生物学的トピックとしてフラグ付けしました」と表示される。この制限は、Fableがマルウェア開発やソフトウェア侵害に使用されるリスクを制限するために設置された。生物学に関する制限も、生物兵器開発への懸念から来ている。
サイバーセキュリティベテランのMatt Suicheは「セキュアコードの記述を求めると、ソフトウェアエンジニアリングのベストプラクティスではなくサイバーセキュリティ関連作業と見なされ、ダウングレードされる」と述べた。制限はキーワードベースのようで、「サイバーセキュリティ」の語彙分野に関連するものすべてがガードレールを発動させる。
Anthropicは4月にMythosをProject Glasswingとして限定公開し、先週は15カ国の数百の組織にアクセスを拡大した。同社はCyber Verification Programへの申請を通じて、承認されたサイバーセキュリティ専門家には制限を緩和している。