अनुसंधान और पेपर Jun 23 github.com

Unlimited OCR: एक-शॉट लंबी अवधि की पार्सिंग

मूल शीर्षक: Unlimited OCR: One-Shot Long-Horizon Parsing

यह क्यों महत्वपूर्ण है

Unlimited-OCR लंबे दस्तावेज़ों की स्वचालित पार्सिंग में क्षमता बढ़ाता है, जिससे डिजिटल दस्तावेज़ प्रसंस्करण और AI-आधारित पाठ निष्कर्षण अनुप्रयोगों के लिए महत्वपूर्ण है।

बैडू (Baidu) ने GitHub पर Unlimited-OCR प्रकाशित किया है, जो Deepseek-OCR को आगे बढ़ाने के लिए डिज़ाइन किया गया एक OCR मॉडल है। यह सिस्टम एक-शॉट लंबी अवधि की पार्सिंग के लिए Transformers और NVIDIA GPU का उपयोग करता है, Python 3.12.3 और CUDA 12.9 पर परीक्षित है।

बैडू ने Unlimited-OCR जारी किया है, जो ऑप्टिकल चरित्र पहचान (OCR) तकनीक में एक महत्वपूर्ण प्रगति है। यह प्रकल्प अपने पूर्ववर्ती Deepseek-OCR को एक कदम आगे ले जाता है और एक-शॉट लंबी अवधि की पार्सिंग क्षमता प्रदान करता है।

तकनीकी विनिर्देश के अनुसार, मॉडल Huggingface Transformers फ्रेमवर्क का उपयोग करके NVIDIA GPU पर अनुमान लगाता है। सिस्टम निम्नलिखित आवश्यकताओं के साथ परीक्षित किया गया है: Python 3.12.3, CUDA 12.9, torch 2.10.0, torchvision 0.25.0, और transformers 4.57.1। अतिरिक्त निर्भरताओं में Pillow, matplotlib, einops, pymupdf और psutil शामिल हैं।

प्रकल्प को ModelScope समुदाय से समर्थन मिला है, जहाँ मॉडल अब उपलब्ध है। GitHub पर रिपोजिटरी में 181 फोर्क और 2.9k स्टार प्राप्त हैं। शोधपत्र arXiv पर प्रकाशित किया गया है। बैडू ने इस प्रकल्प के लिए MIT लाइसेंस अपनाया है, जो ओपन-सोर्स समुदाय के लिए इसकी पहुँच को सुनिश्चित करता है।

स्रोत

github.com — मूल लेख पढ़ें →

Unlimited OCR: एक-शॉट लंबी अवधि की पार्सिंग

यह क्यों महत्वपूर्ण है

स्रोत

संबंधित लेख

सुनने के लिए लॉगिन करें