Forge:ガードレールで8Bモデルの性能を53%から99%に向上

原題: Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks

なぜ重要か

小規模モデルでも高性能なエージェント機能を実現する技術として、コスト効率的なAI開発の新たな選択肢を提供

オープンソースプロジェクトForgeが公開された。自己ホスト型LLMのツール呼び出し精度を大幅に改善するPythonフレームワークで、8Bパラメータのローカルモデルをガードレールにより53%から99%まで性能向上させる。現在トップ構成のMinistral-3 8B Instructが26シナリオ評価で86.5%を達成。

Antoine Zambelliが開発したForgeは、自己ホスト型LLMの信頼性向上を目的としたPythonフレームワークとして公開された。このプロジェクトは、比較的小規模な8Bパラメータモデルでも、適切なガードレールと文脈管理により高精度なマルチステップエージェントワークフローを実現することを実証している。

Forgeの主要機能には、救援パースing、リトライナッジ、ステップ強制などのガードレール機能と、VRAM対応予算管理、階層化圧縮などの文脈管理機能が含まれる。現在最も優秀な自己ホスト構成であるMinistral-3 8B Instruct Q8をllama-server上で動作させた場合、Forgeの26シナリオ評価スイートで86.5%のスコアを記録し、最も困難な階層でも76%を達成した。

フレームワークは3つの使用方法を提供する:WorkflowRunnerによるツール定義とワークフロー実行、直接的なツール呼び出し、カスタマイゼーション可能な設定。GitHubで公開され、現在609のスターと31のフォークを獲得している。評価結果やベンチマークデータも同時に公開されており、開発者コミュニティからの関心を集めている。

出典

github.com — 元記事を読む →