Unlimited OCR: Teknologi Parsing Jangka Panjang Satu Langkah
Judul asli: Unlimited OCR: One-Shot Long-Horizon Parsing
Mengapa Ini Penting
Teknologi OCR one-shot parsing membuka peluang pemrosesan dokumen kompleks yang lebih efisien dalam industri.
Baidu meluncurkan Unlimited-OCR, teknologi optical character recognition (OCR) yang menggunakan pendekatan one-shot untuk parsing dokumen jangka panjang. Model ini tersedia di Hugging Face dan ModelScope dengan dukungan GPU NVIDIA.
Unlimited-OCR adalah proyek open source dari Baidu yang dirancang untuk mendorong kemampuan teknologi OCR lebih jauh. Teknologi ini menggunakan pendekatan one-shot long-horizon parsing, memungkinkan pemrosesan dokumen panjang dalam satu langkah. Model dikembangkan menggunakan arsitektur berbasis transformers dan kompatibel dengan PyTorch versi 2.10.0 serta CUDA 12.9. Unlimited-OCR terintegrasi dengan ekosistem Hugging Face Transformers, memudahkan pengguna untuk melakukan inference pada GPU NVIDIA. Proyek ini juga tersedia di platform ModelScope atas dukungan komunitas mereka. Makalah penelitian telah dipublikasikan di arXiv. Repository GitHub mencatat lebih dari 2.900 bintang, menunjukkan minat signifikan dari komunitas developer. Dependensi utama mencakup transformers 4.57.1, torch 2.10.0, Pillow 12.1.1, dan berbagai library pendukung lainnya.