cuttysark

写真画像から、テキスト文字を取り出す方法とは?

2014年12月17日

こんにちは、カティサークの押切孝雄です。

仕事をしていて、こんなことはないですか?

紙でもらった資料や議事録を、テキスト文字としてデータ化しなくてはならない。
その元データをデジタルデータとして受領できない場合。

自分で、文字打ちしていくのは少し手間ですね。

たとえば、evernoteでは、テキストデータ化したい箇所の写真を撮ってevernoteにアップすれば、
あとは自動的にOCRをかけてくれます。

これにより、文字検索が簡単にできて、閲覧できるようになります。
evernote上でみるのは、OKなのですが、
この文字をデジタルデータとして取り出すのが、けっこうな手間なんです。

アプリで完結するのでしたら簡単なのですが、
それが難しい場合はどうするか?

わりと簡単にできる、2つの方法を紹介します。

1つは、スキャナです。
たとえば、ScanSnapを使って、読み込んで、OCRでデータ化してしまえばOKです。

ただ、手元にスキャナがないという場合もあると思います。

そこで、もう1つは、「日本語文字認識BETA」というWebサービスです。

スクリーンショット 2014-12-17 20.40.34

スキャナがなくても、スマホで写真を撮って、画像を上記のサイトにアップします。
すると、テキスト文字にデータ化してくれます。

実際にやってみたのですが、とっても快適でした。

ただし、読み取り精度は、完璧ではなく、私が試みた時には、
「さ」が「き」になっていたり、
「く」が「<」になっていたりしました。

それでも、自分で1から文字打ちをしなくてはならないのと比べたら、
そのくらいなら許せるレベルです。

ちなみに、手書き文字の読み取りは、全く実用的なレベルではありませんでしたので、
ワードなどで作成・印刷された資料をデータ化する時には力を発揮します。

プリントされた紙から文字データを取り出す時には、威力を発揮すると思いますので、
ぜひ使ってみてください。