Unlimited OCR:ワンショット長距離解析
原題: Unlimited OCR: One-Shot Long-Horizon Parsing
なぜ重要か
長距離テキスト解析能力を持つOCRの進化は、ドキュメント処理、電子化、AI応用に革新をもたらす。オープンソース化により業界全体の技術水準向上に貢献。
百度がワンショット長距離解析を実現する「Unlimited OCR」をGitHubで公開した。2025年6月23日にarXivで論文を発表し、ModelScopeコミュニティのサポートも受けている。PyTorch 2.10.0とCUDA 12.9環境でのNVIDIA GPU推論に対応。Deepseek-OCRからさらに一歩進んだ技術。
百度はUnlimited OCRをオープンソースプロジェクトとして公開した。本技術はワンショット長距離解析を特徴とし、従来のOCR(光学文字認識)技術の限界を超えることを目指している。
公開情報によれば、プロジェクトはGitHub上で利用可能であり、Python 3.12.3環境で動作確認されている。推奨環境はCUDA 12.9とともに、PyTorch 2.10.0、torchvision 0.25.0、transformers 4.57.1など複数のライブラリに対応している。推論はHuggingface transformersを使用してNVIDIA GPU上で実行可能である。
2025年6月23日にはarXivで関連論文が発表され、同日にModelScopeコミュニティでのサポートも確認された。プロジェクトにはPDFドキュメント、推論スクリプト(infer.py)、ホイールファイルなどが含まれている。必要なライブラリにはPillow、matplotlib、einops、easydict、pymupdfなどが列挙されている。MITライセンスの下で公開され、コントリビューション受け入れ体制も整備されている。GitHubではすでに2,900以上のスター獲得。