Forge améliore un modèle 8B de 53% à 99% sur les tâches agentiques
Original : Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks
Pourquoi c'est important
Démocratise l'accès aux agents IA performants via des modèles locaux
Forge, framework Python open-source, utilise des garde-fous pour améliorer drastiquement les performances des modèles LLM auto-hébergés sur les workflows multi-étapes, passant de 53% à 99% de réussite selon les tests.
Le framework Python Forge développe une couche de fiabilité pour l'appel d'outils LLM auto-hébergés. Il améliore les modèles 8B locaux grâce à des garde-fous (analyse de récupération, relances de retry, application d'étapes) et une gestion de contexte (budgets VRAM, compaction à niveaux). La configuration optimale actuelle (Ministral-3 8B Instruct Q8 sur llama-server) atteint 86,5% sur la suite d'évaluation de 26 scénarios de Forge et 76% sur le niveau le plus difficile. Le projet propose trois modes d'utilisation : WorkflowRunner pour définir des outils et workflows, avec 609 étoiles sur GitHub.