GLM-5.2をローカルで実行する方法

原題: GLM-5.2 – How to Run Locally

なぜ重要か

大規模言語モデルのローカル実行環境が拡大し、企業や個人ユーザーの高性能AI活用が加速する。量子化技術による実用的なリソース削減は、エッジAIと分散学習の市場成長を促進する。

Unslothは、Z.aiの新型大規模言語モデル「GLM-5.2」をローカルハードウェアで実行するための方法を公開した。744Bパラメータ、40B活性パラメータ、100万トークンのコンテキストウィンドウを持つGLM-5.2は、Dynamic GGUFを利用した量子化により、256GBメモリのMacや24GBのGPUで動作可能。Claude Opus、GPT-5.5、Gemini 3.1 Proと同等の性能を実現している。

UnslothがZ.aiの新モデルGLM-5.2のローカル実行ガイドを公開した。同モデルは長期的なコーディング、推論、エージェントタスクで最高レベルの性能を発揮する。

主な仕様は、総パラメータ数744B、活性パラメータ40B、最大コンテキストウィンドウ100万トークン。Artificial AnalysisをはじめとするベンチマークでClaude 4.8 Opus、GPT-5.5、Gemini 3.1 Proと同等の性能を示している。

UnslothのDynamic量子化技術により、複数の軽量版が提供される。2ビット量子化版(UD-IQ2_M)は239GBのディスク容量が必要で、256GBの統合メモリを持つMacや1x24GPUと256GBのRAMで動作可能。1ビット版は223GBのRAM、8ビット版は810GBのRAMが必要。2ビット版は元の1.5TBモデルに対して84%小さいながら約82%の精度を維持し、18%の精度低下で大幅な圧縮を実現している。

GLM-5.2は3つの推論モード(非推論モード、高思考モード、最大思考モード)をサポート。複雑なタスクには最大思考モードの使用を推奨している。Unsloth StudioのUIで簡単に推論モードを切り替え可能。最大コンテキストウィンドウ104万8576トークンで、SWE-Bench Proなどのベンチマーク対応設定も用意されている。KL Divergenceによる量子化精度の検証でも、4ビット版と5ビット版はほぼロスレスの性能を確認している。

出典

unsloth.ai — 元記事を読む →