LongCat-2.0: 1.6T पैरामीटर वाला बड़ा MoE मॉडल लॉन्च

मूल शीर्षक: LongCat-2.0, a large-scale MoE model with 1.6T total and 48B Active

यह क्यों महत्वपूर्ण है

बड़े भाषा मॉडलों की दक्षता बढ़ाने के लिए MoE आर्किटेक्चर एक महत्वपूर्ण विकास है, जो उद्योग में संसाधन-सचेत AI development को प्रोत्साहित करता है।

LongCat-2.0 नाम का एक नया बड़े पैमाने का मिश्रण-दक्षता (MoE) आधारित AI मॉडल पेश किया गया है। यह मॉडल कुल 1.6 ट्रिलियन पैरामीटर वाला है, लेकिन सक्रिय रूप से केवल 48 बिलियन पैरामीटर का उपयोग करता है। इसका डिज़ाइन कुशलता और प्रदर्शन में संतुलन बनाने के लिए बनाया गया है।

LongCat-2.0 एक उन्नत भाषा मॉडल है जो मिश्रण-दक्षता (Mixture of Experts - MoE) आर्किटेक्चर पर आधारित है। इस प्रकार की संरचना में, मॉडल के भीतर कई विशेषज्ञ नेटवर्क होते हैं, और प्रत्येक इनपुट के लिए केवल सबसे प्रासंगिक विशेषज्ञ सक्रिय होते हैं। LongCat-2.0 की महत्वपूर्ण विशेषता यह है कि इसके कुल 1.6 ट्रिलियन पैरामीटर में से प्रत्येक अनुमान के समय केवल 48 बिलियन पैरामीटर सक्रिय रहते हैं। यह दृष्टिकोण कम्प्यूटेशनल लागत को काफी हद तक कम करता है जबकि मॉडल की क्षमता को बनाए रखता है। MoE आर्किटेक्चर का उपयोग करके, LongCat-2.0 अधिक पैरामीटर रखने वाले पारंपरिक मॉडलों के साथ प्रतिस्पर्धा कर सकता है, लेकिन कम ऊर्जा खपत और तेजी से प्रतिक्रिया समय के साथ। यह मॉडल longcat.chat प्लेटफॉर्म द्वारा विकसित किया गया है और बड़े पैमाने पर भाषा प्रसंस्करण कार्यों के लिए डिज़ाइन किया गया है।

स्रोत

longcat.chat — मूल लेख पढ़ें →