浅きを去って深きに就く

PR

Keyword Search

▼キーワード検索

Freepage List

October 18, 2025
XML
カテゴリ: 文化

古文書解読の〝イマ〟

国立歴史民俗博物館 准教授  橋本 雄太

AIで「くずし字」認識

日本には、古文書を含む膨大な文字資料が江戸時代以前から伝えられている。これらは博物館や文書館、旧家の蔵などに収蔵されており、近年ではデジタルアーカイブ化も進展している。しかし、これらの古文書の大多数は、現代では使用されていない「くずし字」で記されており、専門的な訓練を受けた人でなければ、その内容を理解するのは困難である。

こうした状況を受けて、近年ではAI技術を活用した「くずし字」の自動認識技術の開発が急速に進められており、その一部は一般にも公開されている。例えば、 2021 年に人文学オープンデータ共同利用センター(CODH)が公開した「みを」は、スマートフォンで撮影してくずし字を自動認識するアプリである。また、 22 年にTOPPANが公開した「古文書カメラ」も同様に、スマートフォンで撮影した画像を認識するツールである。

多数の歴史資料を収蔵する国立国会図書館も、くずし字認識AIの開発に取り組んでいる。同館が 22 年に開発した「NDL古典籍OCR」によって、デジタル公開されている約 8 万点の古典籍(江戸時代以前に刊行された書籍)が活字化された。昨年末には、一般ユーザーがパソコンで利用可能な計量版も公開されている。

歴史資料の活字化

誰でもスマホアプリで翻刻可能に

このように、くずし字認識AIは目覚ましい進歩を遂げているものの、その制度はまだ完璧とは言えない。多くのAIは、人間にも読みやすい木版本の整った文字の認識を得意とする一方で、書状などに書かれた手書きのくずし字の認識を苦手としている。その理由の一つは、学習用データの不足であり、もう一つは、文脈を考慮した判断が苦手であることだ。

AIと人間の組み合わせた取り組みについても紹介しよう。筆者が運営する「みんなで翻刻」は、多くの市民の協力を得て、大量の古文書を解読することを目指すインターネット上の感化型プロジェクトである。「ジョン国」とは、古文書などの歴史資料に書かれた文字を活字化する作業を指す。このプロジェクトは、参加型ウェブサイト「青空文庫」の古文書版と考えるとイメージしやすいだろう。

「みんなで翻刻」では、くずし字認識AIの支援を受けながら、誰でも古文書の翻刻に取り組むことができる。これまでに登録者数は 8000 人を超え、成果として 2800 点以上の古文書が翻刻されている。入力された文字数の合計は 4000 万文字に達し、翻刻されたテキストは、過去の地震研究やデジタルアーカイブの補助資料として活用されている。また、AIにくずし字を教える学習用データとしても利用が進んでいる。

AIや市民参加型ウェブサイトの登場により、古文書解読の世界は大きく変わりつつある。しかし、AIの出力結果を専門知識に基づいて検証できる日本史学や日本文学の専門家の役割も忘れてはならないだろう。

(はしもと・ゆうた)

【文化】公明新聞 2025.2.28






お気に入りの記事を「いいね!」で応援しよう

Last updated  October 18, 2025 04:48:33 AMコメント(0) | コメントを書く
[文化] カテゴリの最新記事


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x
X

Calendar

Favorite Blog

まだ登録されていません

Comments

聖書預言@ Re:池上兄弟とその妻たちへの日蓮の教え(10/14) 神の御子イエス・キリストを信じる者は永…
背番号のないエースG @ 関東大震災 「福田村事件」に、上記の内容について記…
とりと@ Re:問われる生殖医療への応用の可否(04/03) 面白い記事なんですが、誤字が気になる。
とりと@ Re:●日本政策研究センター=伊藤哲夫の主張(03/21) いつも興味深い文献をご紹介いただき、あ…
三土明笑@ Re:間違いだらけの靖国論議(11/26) 中野先生の書評をこうして広めていただけ…

© Rakuten Group, Inc.
X
Design a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: