Unlimited OCR : parsage long horizon en une seule tentative

Original : Unlimited OCR: One-Shot Long-Horizon Parsing

Pourquoi c'est important

Avancée significative en OCR ouvrant la voie à des systèmes de parsing documentaire plus efficaces et polyvalents.

Baidu a publié Unlimited-OCR, un modèle open-source de reconnaissance optique de caractères utilisant une approche « one-shot » pour le parsage long-horizon. Le code et le modèle sont disponibles sur GitHub et ModelScope depuis juin 2026.

Unlimited-OCR est un projet open-source développé par Baidu visant à améliorer les capacités de reconnaissance optique de caractères (OCR) en utilisant une approche novatrice de parsage long-horizon en une seule tentative. Le projet s'appuie sur les travaux antérieurs de Deepseek-OCR et les pousse plus loin. Le code source est disponible sur le dépôt GitHub baidu/Unlimited-OCR avec une licence MIT. Le modèle a été publié et est accessible via Hugging Face Transformers et la plateforme ModelScope. L'infrastructure technique requiert Python 3.12.3 et CUDA 12.9, avec des dépendances incluant PyTorch 2.10.0, Transformers 4.57.1, Pillow 12.1.1, et plusieurs autres bibliothèques. La documentation technique, incluant un article scientifique, a été rendue publique. Le projet inclut des scripts d'inférence et des ressources d'intégration pour faciliter l'utilisation par les développeurs.

Source

github.com — Lire l'original →