Kimi, 추론 제공업체 정확도 검증 도구 오픈소스 공개

원제: Kimi vendor verifier – verify accuracy of inference providers

왜 중요한가

오픈소스 AI 모델 생태계의 품질 관리와 신뢰성 확보를 위한 표준화 도구로 업계 전반에 영향을 미칠 전망

중국 AI 스타트업 Kimi가 오픈소스 모델의 추론 구현 정확도를 검증하는 'Kimi Vendor Verifier(KVV)' 프로젝트를 오픈소스로 공개했다. K2.6 모델 출시와 함께 발표된 이 도구는 6개 핵심 벤치마크를 통해 API 매개변수 제약, 멀티모달 파이프라인, 도구 호출 일관성 등을 검증한다.

Kimi는 오픈소스 모델 생태계에서 발생하는 구현 편차 문제를 해결하기 위해 KVV를 개발했다고 밝혔다. K2 Thinking 모델 출시 이후 커뮤니티로부터 벤치마크 점수 이상 현상에 대한 피드백이 빈번히 접수되었으며, 조사 결과 상당 부분이 디코딩 매개변수 오용에서 비롯된 것으로 확인되었다. 특히 LiveBenchmark 평가에서 서드파티 API와 공식 API 간 현저한 차이를 발견했다고 설명했다. KVV는 6개 핵심 벤치마크로 구성되어 있다. 사전 검증은 API 매개변수 제약이 올바르게 적용되는지 확인하고, OCRBench는 5분간 멀티모달 파이프라인을 테스트한다. MMMU Pro는 다양한 시각 입력으로 전처리를 검증하며, AIME2025는 긴 출력 스트레스 테스트를 통해 KV 캐시 버그와 양자화 성능 저하를 탐지한다. K2VV ToolCall은 트리거 일관성과 JSON 스키마 정확도를 측정하고, SWE-Bench는 전체 에이전틱 코딩을 테스트한다. 평가는 NVIDIA H20 8-GPU 서버 2대에서 순차 실행 시 약 15시간이 소요된다고 밝혔다.

출처

kimi.com — 원문 읽기 →