LongCat-2.0 : modèle MoE 1,6T avec 48B actifs

Original : LongCat-2.0, a large-scale MoE model with 1.6T total and 48B Active

Pourquoi c'est important

Les modèles MoE offrent une efficacité accrue et améliorent les capacités sur contextes longs, critiques pour les applications pratiques.

LongCat-2.0, un grand modèle à mélange d'experts (MoE), compte 1,6 trillion de paramètres totaux et 48 milliards de paramètres actifs. Le modèle améliore les capacités de traitement de séquences longues et les performances globales.

LongCat-2.0 représente une avancée significative dans l'architecture des modèles de langage utilisant une approche MoE (Mixture of Experts). Avec 1,6 trillion de paramètres totaux mais seulement 48 milliards de paramètres activés lors de l'inférence, le modèle optimise l'efficacité computationnelle tout en maintenant une capacité de représentation élevée. Cette conception permet au modèle de traiter des contextes plus longs et de délivrer des performances améliorées sur diverses tâches. L'architecture MoE permet une activation sélective de certains experts du réseau selon les données d'entrée, réduisant ainsi les coûts de calcul comparé à un modèle dense équivalent. LongCat-2.0 s'inscrit dans la tendance croissante des modèles MoE comme alternative aux architectures denses traditionnelles.

Source

longcat.chat — Lire l'original →