LongCat-2.0: 1.6T पैरामीटर वाला बड़ा MoE मॉडल लॉन्च
मूल शीर्षक: LongCat-2.0, a large-scale MoE model with 1.6T total and 48B Active
यह क्यों महत्वपूर्ण है
बड़े भाषा मॉडलों की दक्षता बढ़ाने के लिए MoE आर्किटेक्चर एक महत्वपूर्ण विकास है, जो उद्योग में संसाधन-सचेत AI development को प्रोत्साहित करता है।
LongCat-2.0 नाम का एक नया बड़े पैमाने का मिश्रण-दक्षता (MoE) आधारित AI मॉडल पेश किया गया है। यह मॉडल कुल 1.6 ट्रिलियन पैरामीटर वाला है, लेकिन सक्रिय रूप से केवल 48 बिलियन पैरामीटर का उपयोग करता है। इसका डिज़ाइन कुशलता और प्रदर्शन में संतुलन बनाने के लिए बनाया गया है।
LongCat-2.0 एक उन्नत भाषा मॉडल है जो मिश्रण-दक्षता (Mixture of Experts - MoE) आर्किटेक्चर पर आधारित है। इस प्रकार की संरचना में, मॉडल के भीतर कई विशेषज्ञ नेटवर्क होते हैं, और प्रत्येक इनपुट के लिए केवल सबसे प्रासंगिक विशेषज्ञ सक्रिय होते हैं। LongCat-2.0 की महत्वपूर्ण विशेषता यह है कि इसके कुल 1.6 ट्रिलियन पैरामीटर में से प्रत्येक अनुमान के समय केवल 48 बिलियन पैरामीटर सक्रिय रहते हैं। यह दृष्टिकोण कम्प्यूटेशनल लागत को काफी हद तक कम करता है जबकि मॉडल की क्षमता को बनाए रखता है। MoE आर्किटेक्चर का उपयोग करके, LongCat-2.0 अधिक पैरामीटर रखने वाले पारंपरिक मॉडलों के साथ प्रतिस्पर्धा कर सकता है, लेकिन कम ऊर्जा खपत और तेजी से प्रतिक्रिया समय के साथ। यह मॉडल longcat.chat प्लेटफॉर्म द्वारा विकसित किया गया है और बड़े पैमाने पर भाषा प्रसंस्करण कार्यों के लिए डिज़ाइन किया गया है।