Unlimited OCR:ワンショット長距離解析

原題: Unlimited OCR: One-Shot Long-Horizon Parsing

なぜ重要か

長距離テキスト解析能力を持つOCRの進化は、ドキュメント処理、電子化、AI応用に革新をもたらす。オープンソース化により業界全体の技術水準向上に貢献。

百度がワンショット長距離解析を実現する「Unlimited OCR」をGitHubで公開した。2025年6月23日にarXivで論文を発表し、ModelScopeコミュニティのサポートも受けている。PyTorch 2.10.0とCUDA 12.9環境でのNVIDIA GPU推論に対応。Deepseek-OCRからさらに一歩進んだ技術。

百度はUnlimited OCRをオープンソースプロジェクトとして公開した。本技術はワンショット長距離解析を特徴とし、従来のOCR(光学文字認識)技術の限界を超えることを目指している。

公開情報によれば、プロジェクトはGitHub上で利用可能であり、Python 3.12.3環境で動作確認されている。推奨環境はCUDA 12.9とともに、PyTorch 2.10.0、torchvision 0.25.0、transformers 4.57.1など複数のライブラリに対応している。推論はHuggingface transformersを使用してNVIDIA GPU上で実行可能である。

2025年6月23日にはarXivで関連論文が発表され、同日にModelScopeコミュニティでのサポートも確認された。プロジェクトにはPDFドキュメント、推論スクリプト(infer.py)、ホイールファイルなどが含まれている。必要なライブラリにはPillow、matplotlib、einops、easydict、pymupdfなどが列挙されている。MITライセンスの下で公開され、コントリビューション受け入れ体制も整備されている。GitHubではすでに2,900以上のスター獲得。

出典

github.com — 元記事を読む →