GLM-5.2 को स्थानीय रूप से चलाना: Unsloth के साथ

मूल शीर्षक: GLM-5.2 – How to Run Locally

यह क्यों महत्वपूर्ण है

यह स्थानीय AI अनुमान को अधिक सुलभ बनाता है, बड़े ओपन-सोर्स मॉडल को सीमित संसाधनों वाली प्रणालियों पर चलाने में सक्षम बनाता है।

Z.ai के नए GLM-5.2 मॉडल को अब Unsloth Dynamic GGUFs का उपयोग करके स्थानीय हार्डवेयर पर चलाया जा सकता है। 744B पैरामीटर और 40B सक्रिय पैरामीटर वाले इस मॉडल की 1M संदर्भ विंडो है। 2-बिट क्वांटाइजेशन 239GB डिस्क स्पेस में 82% सटीकता प्राप्त करता है।

Z.ai का GLM-5.2 एक नया ओपन-सोर्स मॉडल है जो कोडिंग, तर्क और एजेंटिक कार्यों में अग्रणी प्रदर्शन प्रदान करता है। Unsloth डॉक्यूमेंटेशन के अनुसार, यह मॉडल Claude 4.8 Opus, GPT-5.5 और Gemini 3.1 Pro के समान प्रदर्शन करता है और Artificial Analysis जैसे बेंचमार्क में शीर्ष स्थान पर है।

क्वांटाइजेशन विकल्प निम्नलिखित हैं: 1-बिट Dynamic 76.2% सटीकता के साथ 86% छोटा है, जबकि 2-बिट Dynamic 82% सटीकता प्राप्त करता है और 84% छोटा है। मेमोरी आवश्यकताएं विभिन्न क्वांटाइजेशन स्तरों के लिए भिन्न हैं: 1-बिट के लिए 223GB, 2-बिट के लिए 245GB, और 8-बिट के लिए 810GB RAM की आवश्यकता है।

मॉडल में तीन थिंकिंग मोड हैं: Non-thinking, High Thinking और Max Thinking। जटिल कार्यों के लिए Max Thinking की सिफारिश की जाती है। सर्वाधिक संदर्भ विंडो 1,048,576 टोकन तक है। Unsloth Studio का नया वेब UI उपयोगकर्ताओं को आसानी से विभिन्न थिंकिंग मोड्स को टॉगल करने की अनुमति देता है। तर्क को अक्षम करने के लिए chat-template-kwargs में 'enable_thinking:false' पैरामीटर का उपयोग किया जा सकता है।

स्रोत

unsloth.ai — मूल लेख पढ़ें →