Needle: Gemini 도구 호출 기능을 26M 모델로 압축

원제: Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model

왜 중요한가

대형 AI 모델의 핵심 기능을 초소형 모델로 압축한 기술적 성과로 엣지 컴퓨팅 확산에 기여할 전망

Cactus Compute가 Gemini 3.1의 도구 호출 기능을 2600만 파라미터 'Simple Attention Network'로 압축한 오픈소스 모델 Needle을 공개했다. Mac/PC에서 로컬 파인튜닝 가능하며 프로덕션에서 6000 토큰/초 처리속도를 달성한다고 밝혔다.

Cactus Compute가 개발한 Needle은 Google의 Gemini 3.1 모델에서 도구 호출(function calling) 기능만을 추출해 2600만 파라미터로 압축한 소형 AI 모델이다. 이 모델은 GitHub를 통해 MIT 라이선스로 공개되었으며, 가중치와 데이터셋 생성 과정이 모두 오픈소스화됐다. Needle의 주요 특징은 d=512 차원, 8개 헤드/4KV 구조, BPE 토크나이저 8192를 사용하는 Simple Attention Network 아키텍처다. 8개 디코더 레이어와 12개 인코더 레이어로 구성되며, ZCRMSNorm, 마스크드 셀프 어텐션, RoPE, 게이티드 잔차 연결 등의 기술을 적용했다. 프로덕션 환경에서는 Cactus 플랫폼에서 6000 토큰/초의 프리필 속도와 1200 토큰/초의 디코드 속도를 달성한다. 개발자들은 일반 PC나 Mac에서도 로컬 환경에서 이 모델을 파인튜닝할 수 있어 접근성이 높다.

출처

github.com — 원문 읽기 →