Kimi、推論プロバイダーの精度検証ツール「Vendor Verifier」を公開

原題: Kimi vendor verifier – verify accuracy of inference providers

なぜ重要か

オープンソースAIモデルの実装品質格差を可視化し、AI推論サービスの信頼性向上に寄与する業界標準化の取り組み

AI企業のKimiは、オープンソースモデルの推論実装精度を検証するツール「Kimi Vendor Verifier」を公開した。K2.6モデルリリースと同時に発表。OCRBench、MMMU Pro、AIME2025など6つのベンチマークで検証を実施し、推論プロバイダー間の品質差を可視化する。

KimiはK2.6モデルのリリースと併せて、Kimi Vendor Verifier(KVV)をオープンソース化すると発表した。このツールは、オープンソースモデルの推論実装の精度を検証するために設計されている。

KVV開発の背景として、K2 Thinkingリリース後にベンチマークスコアの異常に関するコミュニティからの頻繁なフィードバックがあった。調査の結果、多くのケースでDecodingパラメータの誤用が原因であることが判明した。LiveBenchmarkでの評価では、サードパーティAPIと公式API間で顕著な差が観察され、この問題が広範囲に及んでいることが露呈した。

KVVは6つの重要なベンチマークを使用する。事前検証ではAPIパラメータ制約の正しい実行を検証し、OCRBenchは5分間のマルチモーダルパイプライン検証、MMMU Proは視覚入力前処理の検証、AIME2025は長時間出力のストレステスト、K2VV ToolCallはトリガー一貫性とJSONスキーマ精度の測定、SWE-Benchは完全なエージェントコーディングテストを実施する。

検証にはNVIDIA H20 8-GPUサーバー2台を使用し、逐次実行で約15時間を要した。効率向上のため、長時間推論シナリオ向けにスクリプトが最適化されている。

Kimiは公開リーダーボードでベンダー結果の透明性を維持し、インフラプロバイダーが精度を優先するよう促している。

出典

kimi.com — 元記事を読む →