Microsoft, 텍스트 설명으로 AI 행동 테스트하는 도구 공개

원제: New Microsoft tool lets devs spin up AI behavior tests using text descriptions

왜 중요한가

AI 모델이 복잡해지면서 애플리케이션별 맞춤형 평가 도구의 필요성이 증가하는 상황에서 개발자 생산성을 크게 향상시킬 것으로 예상된다.

Microsoft가 6월 2일 ASSERT라는 오픈소스 프레임워크를 공개했다. 개발자들이 자연어 설명을 통해 AI 시스템의 애플리케이션별 행동을 평가할 수 있도록 지원한다. 텍스트 설명을 구조화된 테스트로 자동 변환하며 결과를 점수화한다.

Microsoft는 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)를 발표했다. 이 프레임워크는 AI 모델의 예상 행동과 정책에 대한 평문 설명을 받아 허용 가능한 행동과 불가능한 행동의 구조화된 세트로 변환한다. 시나리오와 테스트 케이스를 생성하고 대상 시스템에 대해 실행한 후 결과를 점수화한다. 또한 AI 시스템이 취하는 경로를 기록해 개발자가 실패 지점을 검사할 수 있다. 예를 들어 개발자가 문서 연구 AI 에이전트가 회사 외부로 이메일을 보내지 않고 기밀 정보를 C급 경영진에게만 제한하도록 지정하면, ASSERT가 이러한 규칙을 확인하는 테스트 케이스를 생성한다. Microsoft의 책임감 있는 AI 수석 제품 책임자 Sarah Bird는 "평가가 좋은 결정을 내리는 데 절대적으로 중요하다"며 "신뢰할 수 있는 시스템을 원한다면 애플리케이션별 차원을 더 많이 평가해야 한다"고 말했다.

출처

techcrunch.com — 원문 읽기 →