Les modèles locaux sont désormais viables

Original : Running local models is good now

Pourquoi c'est important

Les modèles locaux deviennent viables pour tâches quotidiennes, réduisant dépendance aux API cloud et améliorant confidentialité-coûts.

Vicki Boykis, développeuse expérimentée en IA, affirme que les modèles locaux ont atteint une maturité suffisante. Sur son Mac M2 avec 64 Go de RAM, elle exécute Gemma 4 et autres modèles avec une précision d'environ 75% comparée aux modèles frontière, permettant des tâches de codage autonome auparavant impossibles.

Après des années de travail avec les modèles locaux, Vicki Boykis constate que leur qualité s'est considérablement améliorée. Elle a testé de nombreuses architectures : Mistral 7B, Gemma 3, Qwen MOE et variantes, utilisant des moteurs d'inférence comme llama.cpp, Ollama, Open WebUI et LM Studio. Initialement, les modèles locaux étaient lents, difficiles d'utilisation et imprécis pour les tâches de programmation. Le tournant s'est produit avec GPT-OSS, où elle a commencé à moins vérifier les résultats contre les API distantes. Avec les récentes versions de Gemma 4, elle exécute maintenant du codage autonome localement avec une précision-vitesse d'environ 75% par rapport aux modèles frontière. Elle a utilisé ces modèles pour refactoriser des scripts Python, ajouter des type hints, corriger des articles et générer des tests unitaires. Gemma-4-26b-a4b en LM Studio est son modèle local par défaut. Elle développe également une application d'extraction de tendances depuis des articles Arxiv. Bien que les tâches réalisées restent relativement simples (recherches personnalisées, traitements de documents), leur exécution locale était impossible il y a six mois. Gemma-4-12b-qat offre une performance impressionnante pour sa taille. Elle recommande d'essayer avec Pi comme harness autonome et LM Studio comme serveur d'inférence, bien que llama.cpp directement soit potentiellement plus rapide.

Source

vickiboykis.com — Lire l'original →