GLM-5.2 로컬 실행 가이드 공개
원제: GLM-5.2 – How to Run Locally
왜 중요한가
로컬 오픈소스 LLM의 실용화 진전을 보여주는 사례로, 엔터프라이즈급 AI 모델의 접근성과 비용 효율성을 크게 개선하는 기술 발전이다.
Z.ai의 새로운 오픈 모델 GLM-5.2를 로컬 하드웨어에서 실행할 수 있게 됐다. 744B 파라미터와 1M 컨텍스트 윈도우를 갖춘 이 모델은 Unsloth의 동적 양자화 기술을 통해 최소 223GB 메모리로 구동 가능하며, Claude 및 GPT 수준의 성능을 제공한다.
Z.ai가 개발한 GLM-5.2는 744B 파라미터, 40B 활성 파라미터, 1M 컨텍스트 윈도우를 갖춘 오픈소스 모델이다. Unsloth Dynamic GGUFs 기술을 활용하면 로컬 환경에서 실행 가능하다.
성능 면에서 GLM-5.2는 Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro와 동등한 수준으로 평가된다. 장시간 코딩, 추론, 에이전트 작업에서 최고 성능을 제공한다.
양자화 옵션별 메모리 요구사항은 다음과 같다: 1-bit는 223GB RAM, 2-bit는 245GB RAM, 4-bit는 372-475GB, 8-bit는 810GB가 필요하다. 2-bit 동적 양자화(UD-IQ2_M)는 239GB 디스크 공간만으로 256GB 통합 메모리의 맥에서 직접 실행되며, 24GB GPU와 256GB RAM 환경에서도 MoE 오프로딩으로 작동한다.
GLM-5.2는 비사고형, 고수준 사고형, 최대 사고형 세 가지 사고 모드를 지원한다. 복잡한 작업에는 최대 사고형 모드 사용을 권장한다. Unsloth Studio UI를 통해 사고 모드를 쉽게 전환할 수 있다. 기본 설정은 대부분의 작업에 적합하며 온도 1.0, top_p 0.95를 사용한다. SWE-Bench Pro와 같은 소프트웨어 벤치마크에는 온도 1.0, top_p 1.0을 권장한다. 최대 컨텍스트는 1,048,576 토큰이다.