Krea 2: Model Gambar Open-Weights 12B Terdepan
Judul asli: Krea 2: SOTA open-weights 12B image model
Mengapa Ini Penting
Meluncurkan model open-weights berkinerja tinggi mendorong inovasi dalam generasi gambar kreatif dan menantang dominasi model proprietary.
Krea meluncurkan Krea 2, serangkaian model dasar untuk generasi gambar yang dirancang untuk keragaman estetika luas dan kontrol kreatif pengguna. Model ini menggunakan arsitektur diffusion transformer dengan pelatihan multi-tahap dan infrastruktur terdistribusi. Bobot model dirilis dengan lisensi permisif.
Krea 2 adalah serangkaian model fondasi yang berfokus pada eksplorasi kreatif dalam generasi gambar. Model ini dibangun dengan prinsip bahwa generasi gambar harus menjadi medium yang ekspresif dan cukup dapat dikontrol untuk pencipta menavigasi berbagai estetika, gaya, dan komposisi visual.
Tim Krea membangun infrastruktur data skala besar dan kerangka pelatihan terdistribusi dari awal untuk mengkurasi dataset pra-pelatihan komprehensif dengan pengetahuan dunia luas dan cakupan gaya. Model dilatih melalui pipeline multi-tahap yang mencakup pre-training, mid-training, supervised finetuning (SFT), preference optimization, dan reinforcement learning (RL).
Model menggunakan arsitektur diffusion transformer (DiT) sederhana namun berkinerja tinggi dengan beberapa komponen akselerasi konvergensi, termasuk iREPA, VAE yang ditingkatkan, dan Qwen3-VL. Peningkatan arsitektural lainnya mencakup grouped-query attention (GQA), sigmoid-gated attention, lightweight timestep modulation, dan multilayer feature aggregation untuk fitur text-encoder, yang bersama-sama meningkatkan stabilitas dan efisiensi pelatihan.
Untuk mengatasi kesenjangan antara ruang conditioning yang dipelajari model dan cara niat kreatif diekspresikan pada waktu inferensi, Krea membangun sistem yang memanfaatkan caption kaya dan terstruktur dengan hati-hati yang menggambarkan gambar dengan detail visual padat. Bobot model dan inferensi dirilis di bawah lisensi permisif, dengan kode tersedia di GitHub dan bobot di Hugging Face.