Anthropic Fable AI 모델 보안 제한에 사이버보안 연구자들 불만

원제: Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable

왜 중요한가

AI 모델의 보안 제한과 실용성 간 균형 문제가 사이버보안 분야 AI 도구 발전에 중요한 과제로 부상

Anthropic이 6월 10일 출시한 사이버보안 AI 모델 Fable의 과도한 보안 가드레일에 대해 사이버보안 연구자들이 불만을 제기했다. 모델이 사이버보안 관련 용어만 감지해도 작업을 거부하고 Claude Opus 4.8로 다운그레이드된다고 지적했다.

Anthropic이 화요일 출시한 최신 AI 모델 Fable은 강력한 사이버보안 모델 Mythos의 공개 제한 버전으로 소개됐지만, 과도한 제한 조치로 인해 사이버보안 전문가들의 비판을 받고 있다. IBM X-Force의 보안 연구자 Valentina Palmiotti는 'Fable이 사이버 관련 요청을 모두 거부한다. 심지어 블로그 게시물 읽기 같은 무해한 작업도 막는다'고 지적했다. 모델이 가드레일에 걸리면 '사이버보안 또는 생물학 주제로 인해 안전 조치가 작동했다'는 메시지와 함께 채팅이 중단된다. 이러한 제한은 Fable이 악성코드 개발이나 소프트웨어 침해에 악용되는 위험을 막기 위해 설계됐다. 사이버보안 전문가 Matt Suiche는 '보안 코드 작성을 요청해도 소프트웨어 엔지니어링 모범 사례가 아닌 사이버보안 관련 작업으로 간주해 Claude Opus 4.8로 다운그레이드된다'고 설명했다. 한 연구자는 X에서 '코드 리뷰 요청조차 가드레일을 작동시킨다'고 불만을 표했다. Anthropic은 4월 Mythos를 제한적으로 출시한 후 지난주 15개국 수백 조직으로 접근을 확대했다.

출처

techcrunch.com — 원문 읽기 →