こうかの雑記

こうかの雑記

昔の懐かしいこと、ubuntuのこと、その他いろいろ

紙からテキストを取り出す OCR機能

 製本された書籍の電子書籍化のために私がやっている方法です。

資料のページを画像としてPCに取り込む

 スキャナーが無くてもデジカメ、スマートフォンのカメラ等で画像入力できます。
 フラットベッド方式のスキャナーは綺麗に画像化できますが、時間が掛かります。
 それに較べてカメラの場合は簡単に画像化できます。多少傾いたり、歪んだりしますが。
 紙の資料からテキストを取り出すだけなら、カメラで写真を取るほうが遥かに短時間で処理出来ます。
 多少の傾き、歪みは大丈夫です。その程度は体験してみて下さい。
 カメラで写真をとる方法なら、本をスキャナーに押し付けることもないので傷めにくいと思います。

具体的な流れ
 カメラで撮影 → 写真をPCに取り込む → 取り込んだ写真のファイル名を書籍のページ名にリネームする。
 できるならば各ページのページ番号、各ページに付けられているタイトル名の部分を画像編集ソフト(gimp、ペイント等)を使って消しておきます。

 リネームするのは後の手続きで書籍の何ページ目を処理しているかをわかり易くするためです。
 画像編集ソフトで操作するのは、余計な文字が紛れ込むのを防ぐ為です。

OCR(テキストの取り出し)の方法

 Googleドライブ、Googleドキュメントを使いますので事前にGoogleにログインしておきます。
 Googleドライブに写真をアップロードします。
f:id:koukaforest:20191106104016p:plain



 「Googleドライブ」→「マイドライブ」→「ファイルをアップロード」で一度に複数ファイルアップロードできます。
 アップロードした写真を選び → 右クリック →「アプリで開く」→「Googleドキュメント」を選択します。
f:id:koukaforest:20191106104113p:plain



 すると、Googleドキュメンが開いて画像が1ページ目に、その下にOCR処理された結果のテキストが現れます

 GoogleドキュメントのOCR機能は文字の方向(縦・横)に関係なく認識でき、また画像の歪み、多少の傾きにも関わらず、認識してテキストに変換してくれます。精度はかなり高いと思います。

テキストの確認と修正

 使い慣れたエディタを使います。ubuntuならgedit、Windowsならメモ帳が標準でインストールされている筈です。
 Googleドキュメント上のOCR処理されたテキストをエディタに貼り付けます。(CtrlC、CtrlV)
 エディタのテキストと写真とを読み較べて、文字認識間違いがないか確認します。
 写真の写り具合がよければかなり精度は高いですが、それでも確認は必要です。

次の点に注意して確認と修正を行います。

・テキストは行末と行頭が1つの半角空白で繋がってます。→ 半角空白を除去
・ルビは別の行として扱われるようで、離れた位置に見つかると思います。
・本文にない余計な文字が紛れ込む可能性があります。
・画数の多い漢字などに誤認識の可能性があります。
・−(ハイフン)、ー(長音)、―(ダッシュ)、…(3点リーダー)が誤認識される可能性があります。

 不要な半角空白は、エディタの検索・置換機能を使って一括で削除できます。頻度は少ないですが画像の鮮明度によっては文字認識が間違っている場合も有りえます。古い書物だとPCにない漢字だったりします。これらの問題を修正して、確認が終われば、テキストファイルとして保存します。

 以上を繰り返して、ページから章と進めてテキストファイルをまとめて行きます。
 手間と時間を要するのは避けられません。
 書籍の場合、何百ページあろうと全ページを処理することになりますので忍耐力が必要になります。初めての電子書籍化の時は全ページ手打ちしたものですが、それよりは楽かと思います。
 ちょっとした数枚の資料への応用なら、簡単に出来るでしょう。