PR
Keyword Search
Freepage List
古文書解読の〝イマ〟
国立歴史民俗博物館 准教授 橋本 雄太
AIで「くずし字」認識
日本には、古文書を含む膨大な文字資料が江戸時代以前から伝えられている。これらは博物館や文書館、旧家の蔵などに収蔵されており、近年ではデジタルアーカイブ化も進展している。しかし、これらの古文書の大多数は、現代では使用されていない「くずし字」で記されており、専門的な訓練を受けた人でなければ、その内容を理解するのは困難である。
こうした状況を受けて、近年ではAI技術を活用した「くずし字」の自動認識技術の開発が急速に進められており、その一部は一般にも公開されている。例えば、 2021 年に人文学オープンデータ共同利用センター(CODH)が公開した「みを」は、スマートフォンで撮影してくずし字を自動認識するアプリである。また、 22 年にTOPPANが公開した「古文書カメラ」も同様に、スマートフォンで撮影した画像を認識するツールである。
多数の歴史資料を収蔵する国立国会図書館も、くずし字認識AIの開発に取り組んでいる。同館が 22 年に開発した「NDL古典籍OCR」によって、デジタル公開されている約 8 万点の古典籍(江戸時代以前に刊行された書籍)が活字化された。昨年末には、一般ユーザーがパソコンで利用可能な計量版も公開されている。
歴史資料の活字化
誰でもスマホアプリで翻刻可能に
このように、くずし字認識AIは目覚ましい進歩を遂げているものの、その制度はまだ完璧とは言えない。多くのAIは、人間にも読みやすい木版本の整った文字の認識を得意とする一方で、書状などに書かれた手書きのくずし字の認識を苦手としている。その理由の一つは、学習用データの不足であり、もう一つは、文脈を考慮した判断が苦手であることだ。
AIと人間の組み合わせた取り組みについても紹介しよう。筆者が運営する「みんなで翻刻」は、多くの市民の協力を得て、大量の古文書を解読することを目指すインターネット上の感化型プロジェクトである。「ジョン国」とは、古文書などの歴史資料に書かれた文字を活字化する作業を指す。このプロジェクトは、参加型ウェブサイト「青空文庫」の古文書版と考えるとイメージしやすいだろう。
「みんなで翻刻」では、くずし字認識AIの支援を受けながら、誰でも古文書の翻刻に取り組むことができる。これまでに登録者数は 8000 人を超え、成果として 2800 点以上の古文書が翻刻されている。入力された文字数の合計は 4000 万文字に達し、翻刻されたテキストは、過去の地震研究やデジタルアーカイブの補助資料として活用されている。また、AIにくずし字を教える学習用データとしても利用が進んでいる。
AIや市民参加型ウェブサイトの登場により、古文書解読の世界は大きく変わりつつある。しかし、AIの出力結果を専門知識に基づいて検証できる日本史学や日本文学の専門家の役割も忘れてはならないだろう。
(はしもと・ゆうた)
【文化】公明新聞 2025.2.28
戦国を生き抜いた夫婦 愛の物語 November 13, 2025
亡命ロシア文学の世界 November 10, 2025
求められる科学リテラシー November 10, 2025
Calendar
Comments