Kimi Vendor Verifier: Alat Verifikasi Akurasi Provider AI
Judul asli: Kimi vendor verifier – verify accuracy of inference providers
Mengapa Ini Penting
Memastikan kualitas dan kepercayaan ekosistem model AI open-source
Kimi merilis Kimi Vendor Verifier (KVV) open-source untuk memverifikasi akurasi implementasi inference model AI. Tool ini mengatasi masalah penyimpangan kualitas pada ekosistem model open-source melalui enam benchmark kritis.
Bersamaan dengan peluncuran model Kimi K2.6, perusahaan merilis Kimi Vendor Verifier (KVV) sebagai proyek open-source. Tool ini dirancang membantu pengguna model open-source memverifikasi akurasi implementasi inference mereka. KVV menggunakan enam benchmark kritis: Pre-Verification untuk validasi parameter API, OCRBench untuk pipeline multimodal, MMMU Pro untuk preprocessing input visual, AIME2025 untuk stress test output panjang, K2VV ToolCall untuk konsistensi trigger, dan SWE-Bench untuk coding test. Masalah muncul setelah komunitas melaporkan anomali skor benchmark pada K2 Thinking, yang sebagian besar disebabkan kesalahan penggunaan parameter Decoding. Evaluasi pada LiveBenchmark menunjukkan perbedaan signifikan antara third-party API dan official API. Validasi penuh membutuhkan dua server NVIDIA H20 8-GPU dengan eksekusi sekuensial sekitar 15 jam.