TOPPANグループ、中世ギリシャ語の解読が可能なAI-OCRエンジンを開発
TOPPANホールディングス株式会社

ヴァチカン教皇庁図書館所蔵のギリシャ語写本データで検証を実施印刷博物館の企画展「名著誕生展 ヴァチカン教皇庁図書館III+」で研究成果を公開
TOPPANホールディングス株式会社(本社:東京都文京区、代表取締役社長COO:大矢 諭、以下 TOPPANホールディングス)と、グループ会社であるTOPPAN株式会社(本社:東京都文京区、代表取締役社長:野口 晴彦、以下 TOPPAN)は、一般には読み取りが困難とされる中世ギリシャ語の解読が可能なAI-OCRエンジン(以下、本AI-OCRエンジン)を開発しました。
今後は、TOPPANホールディングスが運営する印刷博物館と協力関係にある、ヴァチカン教皇庁図書館のギリシャ語写本の画像やテキストデータを用い、学習データの蓄積や精度改善を重ねることで、本AI-OCRエンジンの認識精度95%以上の達成を目指します。
なお、この取り組みの成果は、2026年4月25日(土)より印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションします。
[画像:
https://prcdn.freetls.fastly.net/release_image/33034/1862/33034-1862-4f8e90b1c9754ba73a3de69111549ba9-1664x745.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
AI-OCR技術を用いた中世ギリシャ語から現代ギリシャ語への翻刻デモ
■ 本AI-OCRエンジンの開発背景
古い文書には、歴史的に貴重な史実や地域文化に関する多様な情報が記録されている一方で、その多くは現代人にとって判読が難しい手書き文字で書かれています。これらの内容を正確に読み解き、文化を継承していくことが、日本に限らずグローバルな社会課題となっています。
TOPPANグループは約30年間にわたり、ヴァチカン教皇庁図書館と文化の継承を推進する複数のプロジェクトで協力しています。ヴァチカン教皇庁図書館は、所蔵する200万点以上のコレクションの一部を、研究・教育利用の促進を目的としてIIIF(※1)形式の高精細画像で公開しています。公開画像は900万枚を超え、現在も継続的に拡充を続けています。また、一部のギリシャ語写本画像には「翻刻(※2)」や「注釈」など付加情報のデータ整備を行っていますが、コレクション全体に付加情報を展開するには、中世ギリシャ語の解読ができる専門性の高い人材が長期にわたり作業を行う必要がありました。
TOPPANはこれまで、日本全国の貴重な歴史的資料の研究・活用を支援するため、現代人には判読困難な「くずし字」で書かれた古文書の解読に関する取り組みを行ってきました。2015年には、AI画像認識技術を活用して「くずし字」を解読する「くずし字OCR」の研究開発を開始し、その後も様々な研究機関との連携やイベントの開催などに取り組んでいます。また、2021年よりスタートした古文書解読・利活用サービス「ふみのは(R)」や、2023年から開始した、一般の方でも手軽に古文書が解読可能なスマホアプリ「古文書カメラ(R)」を展開しています。
このような背景のもと、この度TOPPANは、これまで「くずし字」の解読で培ったAI-OCRに関する技術や知見から、中世ギリシャ語の解読が可能なAI-OCRエンジンを開発しました。
■ 本AI-OCRエンジンの特長
・中世ギリシャ語の解読
中世ギリシャ語は、時代や書き手によって字形が異なるほか、単語の一部が省略される場合や、現代とは異なる綴りが用いられるなど、表記が一定ではないという特徴があります。また、単語と単語の間に区切りを設けずに文章が書かれていることもあり、専門知識のない現代人には読み取りが困難とされています。本AI-OCRエンジンでは、100万字規模の字形や行のデータベースを学習データとして用意することで、中世ギリシャ語文字の解読を実現しました。
・ヴァチカン教皇庁図書館の保有データを学習データとして活用
ヴァチカン教皇庁図書館が保有する約5000点のギリシャ語写本のうち、既に付加情報を加えた50点(IIIF画像約400枚)と翻刻テキストをAIの学習データとして活用します。写本画像と翻刻テキストの高精度な学習に加え、専門家による目視確認も組み合わせることで、解読精度の向上と品質担保を両立します。これにより、膨大なギリシャ語写本コレクションのテキストデータ化を加速させるとともに、本AI-OCRエンジンにおける中世ギリシャ語文字の認識精度95%以上の達成を目指します。
■ TOPPANとヴァチカン教皇庁図書館の取り組みについて
TOPPANグループは印刷博物館の設立準備以来、1997年から29年間にわたりヴァチカン教皇庁図書館と複数のプロジェクトで協力してきました。グーテンベルク42行聖書の高精細デジタルアーカイブ(※3)やキケロ・プロジェクト(※4)、印刷博物館での共同展覧会(※5)など、古文書の解読や文化の継承を推進する取り組みを共同で行っています。2026年4月25日には、印刷博物館での共同展覧会として3回目の企画展となる「名著誕生展 ヴァチカン教皇庁図書館III+」を開催します。本展では、ヴァチカン教皇庁図書館より借用した資料とともに、ギリシャ語OCRのデモンストレーション映像も展示します。
■ 今後の目標
TOPPANグループは、専門知識なしでは解読困難な中世ギリシャ語写本画像に対し、高精度なAI-OCRエンジンにより翻刻文を提供する環境を整備することで、ギリシャ語研究の活性化やさらなる発展に寄与します。また、資料のデジタルアーカイブなどの取り組みを通して、ヴァチカン教皇庁図書館をはじめ、世界各地で収蔵されてきた文化資産の保全と、全世界の人々がアクセス可能な環境整備を両立し、次世代へと継承していくための技術革新を推進していきます。
※1 IIIF(International Image Interoperability Framework): 世界中の図書館・博物館・アーカイブなどでデジタル化された高精細画像を、サイトの枠を超えて相互に利用・共有するための国際的な技術標準・枠組み。この規格に対応することで、異なる機関の画像を一つのビューワ(Miradorなど)で並べて比較や、注釈の追加、高度な比較・分析が容易になり、文化財の活用を促進します。
※2 翻刻:古い写本や印刷物に書かれた文章を、現代の楷書体・活字(テキストデータ)に置き換える作業。
※3 グーテンベルク42行聖書 高精細デジタルアーカイブ(2000年)
ヴァチカン教皇庁図書館所蔵のグーテンベルク42行聖書(羊皮紙版、6葉欠落)を精細デジタル化。また、他館所蔵の資料から抽出したテキスト部分の画像を合成し、欠落していた6葉(12ページ)をデジタル上で復元。
※4 キケロ・プロジェクト(2005年~現在)
再利用羊皮紙写本(パリンプセスト)が上書きされる前の重要な古代文書を解読・復元するプロジェクト。TOPPANグループは画像認識・デジタル化技術を活用したスキャナーと解析ソフトウェアを開発。これらにより、可視光画像に紫外線を照射した画像を重ね合わせることで、消失した過去のテキストを抽出・解読。2022年時点で、4万ページを超える画像を読み取り、その内、88冊分の解析画像がヴァチカン教皇庁図書館のWebサイトで公開されています。
※5 印刷博物館での共同展覧会
過去2回(2001年、2015年)開催。
* 本ニュースリリースに記載された商品・サービス名は各社の商標または登録商標です。
* 本ニュースリリースに記載された内容は発表日現在のものです。その後予告なしに変更されることがあります。
以 上
プレスリリース提供:PR TIMES
記事提供:PRTimes