컴퓨터 사용이 구조화된 API보다 45배 더 비싸다는 분석 결과

원제: Computer Use is 45x more expensive than structured APIs

왜 중요한가

비전 기반 AI 에이전트의 높은 비용 구조가 정량적으로 입증되어 기업의 자동화 솔루션 선택에 중요한 지표가 될 것으로 보인다.

Reflex가 실시한 벤치마크에서 비전 에이전트(컴퓨터 사용)가 API 에이전트보다 45배 더 비싼 것으로 나타났다. 동일한 관리 패널 작업에서 비전 에이전트는 53단계와 551k 토큰을 사용한 반면, API 에이전트는 8회 호출과 12k 토큰만 사용했다.

Reflex는 AI 에이전트가 동일한 관리 패널을 조작하는 두 가지 방법을 비교 분석했다. 테스트는 고객, 주문, 리뷰를 관리하는 관리 패널에서 진행됐으며, Claude Sonnet 모델을 사용해 동일한 작업을 수행했다. 테스트 작업은 'Smith'라는 고객 중 가장 많은 주문을 한 고객을 찾고, 최근 대기 중인 주문을 찾아 모든 대기 중인 리뷰를 승인하고 주문을 배송 완료로 표시하는 것이었다. 비전 에이전트(Path A)는 browser-use를 통해 스크린샷을 찍고 클릭으로 UI를 조작했고, API 에이전트(Path B)는 앱의 HTTP 엔드포인트를 직접 호출했다. 결과적으로 API 에이전트는 8회 호출로 작업을 완료한 반면, 비전 에이전트는 53단계가 필요했다. 토큰 사용량은 API 에이전트가 12k 토큰, 비전 에이전트가 551k 토큰을 사용해 약 45배 차이를 보였다. 특히 비전 에이전트는 페이지네이션 문제로 인해 4개 중 1개의 리뷰만 처리하고 작업을 완료하지 못했다.

출처

reflex.dev — 원문 읽기 →