2025年9月16日~21日に中国・武漢で開催された、文書解析と認識に関する国際会議 「ICDAR2025(International Conference on Document Analysis and Recognition)」の歴史地図認識コンペティションにおいて、当社が1位を獲得しました。本成果は単一モデル(End-to-End)で、効率的かつ高精度に画像ドキュメントから情報を抽出する新技術「CREPE」を用いた研究によるものです。
■「ICDAR2025」とは
文書解析と認識の分野で最も権威ある国際会議の一つであり、世界トップレベルの研究者や開発者が最新技術や研究成果を発表・交流する場です。1991年より開催されており、今年は中国・武漢にて開催されました。
■ 歴史地図認識コンペティションの概要
本コンペティションでは、図1のように歴史的な地図画像から地名・地形名・水域名などを自動的に認識することが求められます。従来のOCR(Optical Character Recognition)の手法では、 曲線の文字、 オーバーラップ(文字の重なり)、回転・スケールの変化などの対応が難しく、精度向上が課題でした。さらに、単なる文字認識にとどまらず、離れた位置にある文字群をひとつの地名として正しくグルーピングする必要がある点でも、非常に高度なタスクです。
図1:歴史地図認識コンペティションの画像 の一例
■End-to-Endモデルの適用
本タスクの特性から、画像のグローバル特徴を認識することが重要であると分かりました。従来は、「検出→認識→情報抽出」のパイプライン方式のOCR手法が広く利用されてきましたが、この手法では各ステージで誤差が蓄積されやすいという課題があります。
そこで、今回の研究では、End-to-Endのモデルである「CREPE」を適用しました。「CREPE」はImageEncoderとTextDecoderで構成され、TextDecoderは情報抽出を担当し、SequenceHeadが座標認識を行います。CoordinateHeadは</ocr>という特殊トークンで実行されます。
図2:「CREPE」の概要図
■既存の「CREPE」からの改良点
既存のドキュメント認識用の「CREPE」では、①曲線状のテキストを表現できない、②テキストのグルーピングが困難、という課題がありました。
これに対し、本研究では以下の改良を加えています。
・ベジェ曲線によるBoundingBox表現:従来の四角形表現を拡張し、8個の制御点を用いて曲線テキストを柔軟に表現
・地名グループ化用の特殊トークン<s_toponym>の導入:離れた文字列をひとつの地名としてまとめることを可能にし、図3の「YOSEMITE NATIONAL PARK」などの正確なグルーピングを実現
図3:「CREPE」の歴史地図認識のための改良点
■認識結果とコンペティションの成果
図4は改良版の「CREPE」をベースにした歴史地図認識の結果を示しています。テキストの模様にしたがって認識が可能であり、同一グループの地名は同色で表しています。
図4:「CREPE」をベースにした歴史地図認識の結果
これら成果により、今回のコンペティションで1位を獲得できました。
特に、唯一のEnd-to-Endモデルで上位入賞を果たした点は、大きな意義を持つ成果であると考えています。
図5:コンペティションの結果
■LINE WORKS株式会社が提供するAIサービス、研究開発について
LINE WORKS株式会社では、ビジネス現場のコミュニケーションツール「LINE WORKS」に加え、 AI技術を活用したサービスを提供しています。
また、AI技術そのものの研究開発にも注力しており、今後は、今回の論文で提案した手法をさらに発展させると共に、プロダクトへの適用や新たな機能・サービスの創出に努めてまいります。
■LINE WORKS OCR
https://line-works.com/ai-product/ocr/
■LINE WORKS PaperOn
https://lp.line-works.com/paperon/
▼論文の詳細については下記をご参照ください。
- Okamoto, Y. Baek, G. Kim, R. Nakao, D. Kim, M. Yim, S. Park, B. Lee “CREPE: Coordinate-Aware End-to-End Document Parser”
https://arxiv.org/abs/2405.00260 - Lin, et al. “ ICDAR 2025 Competition on Historical Map Text Detection, Recognition, and Linking “
https://link.springer.com/chapter/10.1007/978-3-032-04630-7_33