深層学習による文字・画像認識
日本近代公文書の解読支援で戦前期の行政を理解する

目加田先生顔写真.JPG
目加田 慶人 教授

 人工知能というキーワードでよく語られる「深層学習」は、入力された大量のデータとそれに対して付与された答えをもとに、データと答えの間にある関連を求める技術といっても良いでしょう。画像認識においては「畳み込みニューラルネットワーク」と呼ばれる深層学習手法が開発されてその認識能力が飛躍的に向上しました。

 中京大学では、1982年から台湾総督府文書目録の編纂を進めてきた法学部の檜山幸夫教授と数名の工学部教員との学部・文理を超えた共同研究として、台湾総督府文書から当時の行政機構を理解することを目的とした取り組みを始めました。

 台湾総督府文書とは、日本の公文書としては唯一体系的に残されている日本統治下台湾の手書き行政文書で、 500枚程度の和紙が纏められた簿冊が13,146冊ある大量の文書群です。これらは、新・旧字体やそのくずし字、合字など多様な字種字形を含むだけでなく、書き手により字体も大きく異なるなど、認識を困難にする様々な要素を含んでいます。このような古文書は、通常は人手で翻刻し、専門家がそれを確認するという手順で活字に起こしています。

 一般的に文書認識においては、レイアウト解析により文字の位置を特定した後にその文字が何であるかを分類します。台湾総督府文書は、枠から大きくはみ出している文字、英文、付箋による注釈などを含んでおり、文字の位置や向きを特定して切り出すことが非常に難しい対象です。我々は、人工知能で各文字画像の字種を学習できるように文字の位置と大きさを付与した翻刻作業を進めており、私の研究室では文字認識エンジンを作成しています。約16,000文字の翻刻作業が終了した時点では、候補文字種の上位10文字中に正解文字が含まれている割合が8割を少し超えるという認識精度でした。翻刻作業を担う大学生のために翻刻支援アプリケーションを作成し、翻刻作業における効果を評価しています。現時点では、3,000種以上ある対象文字種に比べて学習用の文字が少ないため、更なる翻刻作業が必要です。また、翻刻により学習用文字画像が増える度に文字認識エンジンの再設計と再学習が必要となります。大規模な文書全体の理解に向けたこの研究はスタート地点に立ったばかりです。

 近年の深層学習の発達は、パターン認識に関する研究を劇的に変えました。極論すると、答えが判っている入力データを大量に用意するだけで、それらを自動分類できるシステムができてしまうのです。人工知能が人にとって代わり、人の仕事がなくなるという議論がよくされています。定型作業は人工知能に任せてしまい、我々人間は未知の問題の解決など、より高度な判断が求められる場面で力を発揮すれば良いともいえます。画像処理・パターン認識の研究者である我々も、今までに無い、あるいは、より高度な問題が解けるように学習し続けないと立場が危ういかも。

目加田 慶人(めかだ よしと) 中京大学 工学部情報工学科教授

画像処理・パターン認識

名古屋大学大学院工学研究科博士課程修了、博士(工学)

1968年生まれ

2017/06/07

  • 記事を共有