Forge, 8B 모델 에이전트 태스크 정확도를 53%에서 99%로 향상

원제: Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks

왜 중요한가

소규모 모델로도 고성능 AI 에이전트 구현이 가능해져 자체 호스팅 AI 솔루션의 경쟁력이 크게 향상될 전망이다.

개발자 Antoine Zambelli가 공개한 Python 프레임워크 Forge가 가드레일 기술을 통해 8B 로컬 LLM 모델의 멀티스텝 에이전트 워크플로 성능을 대폭 개선했다고 발표했다. 현재 최고 성능 설정에서 26개 시나리오 평가에서 86.5% 정확도를 달성했다.

Forge는 자체 호스팅 LLM 도구 호출을 위한 신뢰성 레이어를 제공하는 Python 프레임워크다. 이 시스템은 구조 파싱, 재시도 유도, 단계 강제 실행 등의 가드레일과 VRAM 인식 예산 관리, 계층화된 압축 등의 컨텍스트 관리 기능을 통해 8B 로컬 모델의 성능을 크게 향상시킨다. 현재 최고 성능 구성인 Ministral-3 8B Instruct Q8 모델이 llama-server에서 실행될 때 Forge의 26개 시나리오 평가 스위트에서 86.5%의 정확도를 달성했으며, 가장 어려운 단계에서도 76%의 성능을 보였다. 이 프레임워크는 WorkflowRunner, Agent, Tool의 세 가지 사용 방식을 제공하며, GitHub에서 오픈소스로 공개되어 609개의 스타를 받았다. 개발자들은 이를 통해 로컬 환경에서도 고성능 AI 에이전트 워크플로를 구축할 수 있게 되었다.

출처

github.com — 원문 읽기 →