백악관, 앤스로픽에 모든 탈옥 차단 요구

원제: The White House Wants Anthropic to Block All Jailbreaks. That May Not Be Possible

왜 중요한가

AI 모델의 안전성 규제와 기술적 제약 사이의 근본적 한계가 정책 수립 과정에서 노출되고 있으며, 이는 향후 AI 규제 체계 구축에 중요한 시사점을 제공한다.

트럼프 행정부가 앤스로픽의 Claude Fable 5 재출시 조건으로 AI 모델의 모든 탈옥(jailbreak) 방지를 요구했다. 지난주 수출 통제로 오프라인 상태인 Fable 5에 대해 국가안보국이 보안 취약점을 확인했으며, 행정부는 앤스로픽이 지속적으로 테스트해 정부에 보고할 것을 요구하고 있다.

트럼프 행정부와 앤스로픽 간의 첨단 AI 모델을 둘러싼 갈등이 고조되고 있다. 행정부 관계자들은 앤스로픽이 Claude Fable 5를 재출시하려면 모델의 보안장치가 우회되지 않도록 조치를 취해야 한다고 주장했다. Fable 5는 지난주 탈옥 우려로 수출 통제 대상이 되어 오프라인 상태다.

앤스로픽은 행정부의 우려가 과장되었으며 탈옥의 영향이 최소한이라고 주장해왔다. 회사는 상무부와 국가사이버국장 션 케언크로스와의 기술 회의에서 이 입장을 반복했다. 하지만 행정부 관계자들은 국가안보국이 Fable 5의 보안장치를 비활성화할 수 있는 방법이 있다고 결론지었기 때문에 논의 단계를 벗어났다고 말했다.

행정부는 이제 상황을 앤스로픽이 해결해야 할 문제로 보고 있다. 상무부 AI 표준 혁신 센터와 국가안보국은 시장에 나오는 모든 모델의 모든 가능한 탈옥을 추적할 인력과 자원이 없다고 설명했다. 따라서 행정부는 앤스로픽이 Fable 5뿐 아니라 모든 첨단 AI 모델에 대해 지속적으로 테스트하고 잠재적 탈옥을 찾아 정부에 자발적으로 보고해야 한다고 믿고 있다.

한편 독립적인 사이버보안 전문가들은 AI 모델의 보안장치가 일시적 해결책일 뿐이며, 숙련된 사용자와 향후 AI 모델이 제약을 우회할 방법을 찾을 것이라는 견해를 점점 더 많이 제시하고 있다. 이는 백악관이 원하는 것이 근본적으로 불가능할 수 있음을 의미한다.

출처

wired.com — 원문 읽기 →