アフィリエイト広告を利用しています

広告

posted by fanblog

『グーグル・ドキュメント(Google Docs)』の日本語OCR、識字率は9割以上!(私的検証結果)

『グーグル・ドキュメント(Google Docs)』の日本語OCR、識字率は9割以上!(私的検証結果)



『グーグル・ドキュメント(Google Docs)』のOCR処理?


ここのところ毎日のように新聞記事で取り上げられていますが、
米国グーグル(Google)では2011年2月28日、

『グーグル・ドキュメント(Google Docs)』のOCR機能を強化し、
日本語を含む合計34言語のOCR処理を行えるようになりました。


<参考文献>
Docs ヘルプ
アップロードとエクスポート: PDF ファイルやテキスト付きの画像ファイルを
Google ドキュメントに変換してアップロードする


※その他についても、知りたい人は…
Google ドキュメントの新機能



書類などをスキャンした画像ファイルやPDFファイルを、
『グーグル・ドキュメント(Google Docs)』にアップロードすると、
テキストの画像を読み取り、
自動的にテキスト・データデータに変換してくれるのです。



方法は?いたって簡単!



≪要点≫
ファイルをドラッグして、アップロードするだけ!
それだけで、テキストデータが作られる!
もちろん、無料!


<詳しく説明すると…>

『グーグル・ドキュメント(Google Docs)』を開いて、
画面左上部の『アップロード』を選択します。


『ファイルのアップロード』の画面に変わるので、
『ここにファイルをドラッグ&ドロップしてください』と表示されている場所へ、

テキストをスキャンした画像(JPG等)やテキストの入ったPDFファイルを、
ドラッグ&ドロップします。


ファイルのサイズは、現在は2Mバイトまで です。
ちなみに有名な、『25年前の春、2人の若者が…』で始まる、
『ウォールストリート・ジャーナル』の世界で一番売れたコピー、の、
日本語訳の一つを画像データにしたところ、A4の用紙1枚にまとまり、
300dpiで読み取ると、523KBでした。
(ワードで、MSP明朝11ポイントを使用)
(ちなみに、倍の精度の600dpiで読み込んだときは、1.49MBでした。)

これをサンプルにします。
画像は、既に、その画像データを、ドラッグ&ドロップした後のものです。


中ほどの『変換オプションの選択』は、
本来は、この画像のようにチェックを入れ直すらしいのですが、

意味がよくわからなかったので、各種試してみましたが、
チェックはそのままにしておいても、結果は変わらず、
自動的にテキストを抽出していました。
(どうやら、プログラムの中で、自動的に判断しているようです。)

オプションは、無視しても大丈夫 でした。


画面下部の 『アップロードを開始』をクリック します。

すぐに読み込みが終わりますが、その後しばらく(30秒以内らしいです)、
輪がぐるぐる回り待機した後、
ファイル名の左に緑色のレチェックが入り、
下部に 『アップロードが完了しました。』と、表示されたら、終了 です。


それでは、画面左上部の、 『Googleドキュメントに戻る』をクリック して、
成果を見てみましょう。


一番上の黄色の部分は、 注意書き で、
邪魔だったらマウスの右ボタンで消すよう指示されているので、
無視します。

その次の枠で囲われた部分が、 テキストの画像原稿データ です。


さらにその下に、グーグルで テキストに変換した文書 が現れます。


ラテン系の文字は、識字率が99%くらいあるらしいですが、
日本語の場合は、体感では、9割以上、と言ったところ でしょうか。

雑な人がワープロで入力したレベルかな?

難しい文書でなければ、ほぼ内容は、わかる、というレベルです。

個人的には、グーグルの翻訳ソフトで約した日本語より、
ずっとよくわかります。

ただし、文字の解析だけを行っているようで、
文章の解析はやっていないようです。
少なくとも、文章の解析を行った時の、
ここがおかしいのでは?と言う表示はありません。


なお、テキストの画像は、 縦書きは不可で、横書きに限ります
もちろん、 手書はだめ です。


≪各種試してみました≫
文書を少し傾けて読み込ませると…
著しく、識字率が落ちました。

300dpiで9割なら、600dpiでは、ほとんど正確に読み取れるのでは?
同じ文書で、バイト数が、523KBから1.49MBになりました。
現在の上限の2Mバイト以下です。

期待して、アップロードしました。

読み込みに時間がかかりました。

ページを開くと、
黄色の注書の下に大きく、
テキストが表示されています。
テキストの画像はありません。
(処理の容量の上限があるのでしょう。)

期待したテキストの内容は、
ひどいものでした。

300dpiで読み込んだ時のほうが正しく読みとれていたのです。
現在の制限容量のせいでしょうか?

残念!


PDFファイルのアップロード
(1) テキスト画像文書のPDFの場合
これは、 全く駄目。役に立ちません。
うまくいく場合もあるかもしれませんが…

(2) テキスト文書のPDFの場合
これは、素晴らしかった です。
今回は、いらない空白が1も自分挿入されただけで、
後は、 完璧に 読み込まれていました。

まあ、これは、もともとPDFファイルには、テキストが埋め込まれているので、
当たり前と言えば当たり前なのですが。

(ちなみに、この場合は、そもそも、アップロードなどしなくとも、
テキストを選択してコピーし、ワープロやエディタに張り付ければ、
それで出来上がりです。
もちろん、グーグル・ドキュメントにそのまま張り付けでもOKですが…)


≪結論≫
そこそこPCスキルがあり、
ほぼブラインドタッチで、ゆっくりと話す程度に入力できる人には、
現在のレベルでは、あまり役立たないかもしれません。


ただ、腕が疲れて、入力するよりも、チェックして修正したほうがいいと、
そう思う時には利用価値があるでしょう。


○一方、 テキストの入力に時間がかかるとか、苦痛だとか感じる人には、
ぜひおススメ
です。

なにしろ、 今のレベルでも、瞬時に登録が終わり、
しかも9割以上の識字率があるので(管理人の主観では)、
後は少しずつ修正するだけで終わりですから。



まあ、パソコンは、とても便利ですが、
道具の一つに過ぎないのですから、
自分に合わせた使い方をすればよいのです。

気分に合わせて使用しようかな?





この記事へのコメント

×

この広告は30日以上新しい記事の更新がないブログに表示されております。

Build a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: