Microsoft、自然言語でAI動作テストを作成するフレームワーク発表
原題: New Microsoft tool lets devs spin up AI behavior tests using text descriptions
なぜ重要か
AI システムの信頼性向上とアプリケーション固有の動作検証を自動化する技術革新として、AI開発効率化に重要
Microsoftは6月2日、開発者向けオープンソースフレームワーク「ASSERT」を発表した。自然言語による説明文から、アプリケーション固有のAI動作テストを自動生成し、スコア付きで評価できる。AI システムの意図した動作の確認と継続的監視が可能となる。
Microsoftが発表したASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)は、開発者がAIシステムの動作テストを簡素化するためのオープンソースフレームワークだ。このツールは、目標やポリシー、意図された動作の自然言語による説明を、包括的でスコア付きのテストに変換する機能を持つ。ASSERTは、AIモデルの期待される動作とポリシーの平易な言語による説明を受け取り、それらを許可される動作と許可されない動作の構造化されたセットに変換し、問題シナリオとテストケースを生成し、対象システムに対して実行してスコアを付ける。また、AI システムが取る経路を記録し、中間アクションやツール呼び出しを含めて、開発者が失敗がどこで起こるかを調査できる。例として、文書調査AIエージェントが社外の人にメールを送信すべきでなく、機密情報をC レベル幹部に限定し、事前の文脈を考慮した簡潔な要約を提供するべきという指定が可能だ。Microsoft Responsible AI の最高製品責任者Sarah Bird氏は、「評価は良い意思決定を行うために絶対に重要」と述べ、「信頼できるシステムを持ちたいなら、アプリケーション固有のより多くの次元を評価すべき」と語った。このリリースは、Stanford のHELM、MLCommons のAILuminate、METR などの評価グループがベンチマークを展開する中で、業界全体でテストと回帰チェックに焦点が当てられる流れの一部となっている。