Krea 2:SOTA オープンウェイト 12B 画像生成モデル
原題: Krea 2: SOTA open-weights 12B image model
なぜ重要か
画像生成モデルが創造的用途向けにより柔軟で多様な美的表現に対応することで、コンテンツ制作やデザイン業界での活用範囲が拡大し、オープンウェイト化によりエコシステム発展への寄与が期待される。
画像生成企業 Krea は 2024 年 6 月、基礎モデル「Krea 2」シリーズを発表した。12B パラメータのオープンウェイトモデルで、広範な美的多様性とユーザーの創造的制御に対応。データ キュレーション原則、モデル アーキテクチャ、多段階トレーニング パイプライン、分散インフラストラクチャを公開。Hugging Face と GitHub でウェイトを許容的ライセンスで公開。
Krea 2 は、創造的探索を中心に設計された画像生成モデルシリーズである。従来の画像生成モデルが信頼性を重視した結果、デフォルトの美的様式に収束してきたことに対し、Krea 2 はスタイル、ムード、構図、ビジュアル方向など多様な美的表現をサポートすることを目標としている。
モデルは Diffusion Transformer (DiT) アーキテクチャをベースに構築。iREPA、改善された VAE、Qwen3-VL といった収束を加速するコンポーネント、および Grouped-Query Attention、Sigmoid-gated Attention、軽量タイムステップ変調、多層特徴集約などの建築上の改善を統合している。
トレーニング パイプラインは複数段階で構成される。プリトレーニング、ミッドトレーニング、教師あり微調整 (SFT)、選好最適化、強化学習 (RL) の各段階を通じて、モデルの出力分布を段階的に洗練。これにより、ユーザーの創造的意図とモデルの学習空間のギャップを縮小する。
データ基盤として、世界知識とスタイルカバレッジを備えた大規模プリトレーニング データセットを構築。画像の豊かな視覚的詳細を記述した綿密に構成されたキャプションを使用してモデルを訓練し、自然言語、ムード、スタイル、参照画像など異なるユーザー表現に対応できるようにした。
モデルウェイトとコードは許容的ライセンス下で公開され、研究者や開発者による活用が可能。