무제한 OCR: 원샷 장문 파싱 기술 공개
원제: Unlimited OCR: One-Shot Long-Horizon Parsing
왜 중요한가
장문 문서 자동화 처리 기술은 기업 문서 관리, 스캔 이미지 디지털화 등 실무 분야의 효율성 향상을 가능하게 하며, 멀티모달 AI 발전을 선도하는 기술 트렌드를 보여준다.
바이두가 'Unlimited OCR' 프로젝트를 공개했다. DeepSeek-OCR을 기반으로 한 원샷(one-shot) 장문 파싱 기술로, 2026년 6월 23일 arXiv 논문 공개 및 ModelScope 플랫폼에 모델 공개됐다. Python 3.12.3과 CUDA 12.9 환경에서 실행 가능하다.
바이두가 개발한 'Unlimited OCR'는 기존 OCR 기술의 한계를 넘어 장거리 텍스트 인식 및 파싱을 목표로 하는 오픈소스 프로젝트다. DeepSeek-OCR을 기반으로 구축되었으며, 원샷 학습 방식으로 복잡한 문서 구조를 한 번에 처리할 수 있다는 점이 특징이다.
기술 사양은 PyTorch 2.10.0, torchvision 0.25.0, transformers 4.57.1 등을 필요로 하며, NVIDIA GPU를 활용한 추론(inference)을 지원한다. Huggingface transformers 라이브러리를 통해 모델을 로드하고 사용할 수 있는 구조다.
2026년 6월 22일 공식 발표되었으며, 며칠 뒤 arXiv에 연구 논문이 공개됐다. 또한 중국의 ModelScope 커뮤니티를 통해서도 모델이 배포되고 있다. GitHub 저장소에는 추론 코드, 가중치 파일, 문서 등이 포함되어 있으며, 이미 2.9천개 이상의 스타를 받아 개발자 커뮤니티의 관심을 모으고 있다.