Un Xeon de 10 ans suffit pour faire tourner Gemma 4

Original : A 10 year old Xeon is all you need

Pourquoi c'est important

Démontre la possibilité de démocratiser l'IA en recyclant du matériel ancien

Un développeur démontre qu'il est possible de faire fonctionner le modèle IA Gemma 4 sur un serveur de 2016 avec un Xeon E5-2620 v4, 128 Go de DDR3 et sans GPU, grâce à des optimisations avancées.

L'auteur utilise un serveur recyclé avec un processeur Intel Xeon E5-2620 v4 de 2016, 128 Go de RAM DDR3 (5-6 fois plus lente que la RAM actuelle) et aucun GPU pour faire tourner Gemma 4. Le défi principal est la bande passante mémoire limitée, car l'inférence LLM nécessite de déplacer des gigaoctets de poids depuis la RAM vers le cache CPU pour chaque token généré. Contrairement à ollama qui ne fonctionne pas sur ce modèle, l'auteur utilise llama-cli avec de nombreuses optimisations spécialisées : décodage spéculatif, parallélisation sur 8 threads, optimisations CPU-MoE, flash attention, et gestion mémoire avancée. Ces optimisations permettent de contourner les limitations matérielles et de rendre l'inférence possible sur du matériel obsolète.

Source

point.free — Lire l'original →