Model lokal kini mencapai performa yang mengesankan
Judul asli: Running local models is good now
Mengapa Ini Penting
Menunjukkan kemajuan signifikan dalam aksesibilitas AI lokal, mengurangi ketergantungan pada API cloud dan membuka peluang deployment di perangkat lokal.
Pengembang Vicki Boykis melaporkan bahwa model lokal kini cukup handal untuk tugas pemrograman. Dengan perangkat M2 Mac 64GB RAM, dia berhasil menjalankan model seperti Gemma 4 yang mencapai akurasi ~75% dibanding model frontier, termasuk untuk agentic coding.
Vicki Boykis, seorang pengembang teknologi, membagikan pengalamannya menjalankan model bahasa lokal sejak peluncuran awalnya. Pada awalnya, model lokal lambat, sulit digunakan, dan tidak akurat untuk sebagian besar tugas pemrograman. Perubahan signifikan terjadi setelah rilis GPT-OSS, di mana Boykis mulai lebih jarang memverifikasi hasil terhadap API model.
Dengan rilis terbaru Google dalam keluarga Gemma 4, Boykis kini dapat menjalankan agentic coding secara lokal dengan akurasi dan kecepatan sekitar 75% dari model frontier. Dia menggunakan Gemma-4-26b-a4b melalui implementasi LM Studio sebagai model lokal default.
Boykis telah menggunakan setup lokal untuk berbagai tugas termasuk refactoring skrip Python, menambahkan type hints, proofread blog, menulis unit tests, dan membangun sistem rekomendasi two-tower model. Semua tugas ini dijalankan dalam kontainer Docker dengan akses terbatas untuk keamanan.
Perangkat yang digunakan adalah Mac M2 dengan 64GB RAM dan 1TB penyimpanan, dengan K-V cache yang tumbuh hingga 64GB RAM. Boykis menekankan bahwa meskipun tugas-tugas ini sederhana (banyak digunakan sebagai alat pencari informasi personal), sebelumnya tugas seperti ini tidak mungkin dilakukan dengan model lokal enam bulan yang lalu. Model terbaru Gemma-4-12b-qat juga menunjukkan performa mengesankan relatif terhadap ukurannya.