Modèles locaux sur M4 24GB : test du Qwen 3.5-9B

Original : Running local models on an M4 with 24GB memory

Pourquoi c'est important

Démontre la faisabilité d'IA locale performante sur hardware grand public

Un développeur teste l'exécution de modèles IA locaux sur MacBook Pro M4 avec 24GB RAM. Le Qwen 3.5-9B quantifié Q4 offre 40 tokens/sec avec fenêtre de contexte 128K via LM Studio, permettant l'indépendance vis-à-vis des géants tech américains.

L'auteur documente son expérience avec différents modèles IA locaux sur M4. Après avoir testé Qwen 3.6 Q3, GPT-OSS 20B et Devstral Small 24B (inutilisables en pratique), et Gemma 4B (problèmes d'outils), le Qwen 3.5-9B quantifié Q4_K_S s'avère optimal. Ce modèle offre 40 tokens/seconde, mode thinking activé, utilisation d'outils réussie et contexte 128K sur LM Studio. Configuration recommandée pour codage : température=0.6, top_p=0.95, top_k=20. L'article détaille les configurations pour Pi et OpenCode, deux interfaces testées. Bien qu'inférieur aux modèles SOTA, le setup permet une IA fonctionnelle sans connexion internet.

Source

jola.dev — Lire l'original →