GLM-5.2がオープンウェイトモデルで最高評価を獲得

原題: GLM-5.2 is the new leading open weights model on Artificial Analysis

なぜ重要か

オープンソースモデルのプロプライエタリモデル化に対する競争力が強化されている。推論能力で商用最先端に接近するコスト効率的な選択肢が拡大し、LLM市場の競争構図が変わりつつある。

中国のZhipu AIが開発したGLM-5.2が、Artificial Analysis Intelligence Indexで51点を獲得し、オープンウェイトモデルで最高評価となった。2024年6月17日の報告。744Bパラメータで前モデルGLM-5.1から11点向上。MiniMax-M3(44点)やDeepSeek V4 Pro(44点)を上回る。API価格はGLM-5.1と同等の入力トークン1M当たり1.4ドル。

Zhipu AIのGLM-5.2は、Artificial Analysisのベンチマークテストで、オープンソースモデルとしては最高スコアを記録した。総パラメータ744B(アクティブ40B)で、前世代GLM-5.1と同規模ながら、Intelligence Index v4.1で11点の改善を達成し、51点となった。

主な性能改善は科学的推論能力で顕著。CritPtテストで21点(+16点)、HLEで40点(+12点)、SciCodeで50点(+7点)など、複数の評価項目で前モデルを上回った。GDPval-AA v2ではスコア1524を記録し、MiniMax-M3(1418点)とDeepSeek V4 Pro(1328点)を抜き、プロプライエタリモデルのGPT-5.5(xhigh reasoning、1514点)と同等水準に達した。

コンテキストウィンドウは200Kトークンから1Mトークンに拡張。ただしタスク当たり43Kトークンを出力利用し、前モデルの26Kから増加、MiniMax-M3(24K)より多く、トークン効率では劣後している。タスク当たりコスト約0.46ドルで、Pareto frontieredge上に位置する。

ライセンスはMIT。第一方APIで$1.4/$4.4/$0.26(入力/出力/キャッシュヒット)の価格設定。DeepInfra、Siliconflow、Fireworksなど複数の第三者プロバイダーでも利用可能。

出典

artificialanalysis.ai — 元記事を読む →