写真画像から、テキスト文字を取り出す方法とは？

2014年12月17日

こんにちは、カティサークの押切孝雄です。

仕事をしていて、こんなことはないですか？

紙でもらった資料や議事録を、テキスト文字としてデータ化しなくてはならない。
その元データをデジタルデータとして受領できない場合。

自分で、文字打ちしていくのは少し手間ですね。

たとえば、evernoteでは、テキストデータ化したい箇所の写真を撮ってevernoteにアップすれば、
あとは自動的にOCRをかけてくれます。

これにより、文字検索が簡単にできて、閲覧できるようになります。
evernote上でみるのは、OKなのですが、
この文字をデジタルデータとして取り出すのが、けっこうな手間なんです。

アプリで完結するのでしたら簡単なのですが、
それが難しい場合はどうするか？

わりと簡単にできる、2つの方法を紹介します。

1つは、スキャナです。
たとえば、ScanSnapを使って、読み込んで、OCRでデータ化してしまえばOKです。

ただ、手元にスキャナがないという場合もあると思います。

そこで、もう1つは、「日本語文字認識BETA」というWebサービスです。

スキャナがなくても、スマホで写真を撮って、画像を上記のサイトにアップします。
すると、テキスト文字にデータ化してくれます。

実際にやってみたのですが、とっても快適でした。

ただし、読み取り精度は、完璧ではなく、私が試みた時には、
「さ」が「き」になっていたり、
「く」が「＜」になっていたりしました。

それでも、自分で1から文字打ちをしなくてはならないのと比べたら、
そのくらいなら許せるレベルです。

ちなみに、手書き文字の読み取りは、全く実用的なレベルではありませんでしたので、
ワードなどで作成・印刷された資料をデータ化する時には力を発揮します。

プリントされた紙から文字データを取り出す時には、威力を発揮すると思いますので、
ぜひ使ってみてください。

　

押切孝雄（おしきりたかお）
株式会社カティサーク代表取締役
デジタルマーケティングコンサルタント
文京学院大学准教授
押切孝雄の詳しいプロフィールはこちら

ホームページの問い合わせからの売上だけで、数億円アップさせる企業が続出するなど、特にBtoB企業のホームページリニューアルと改善のコンサルティングに実績がある。

理論と実践を重んじるため、実際の企業のマーケティングで効果が実証されたことは、著書（7冊以上）で理論化し、さらに大学で講師（WEBマーケティング）をするなど、若い世代への指導にもあたっている。

会社のミッションは、WEBの効果的な活用法を世界中に広めること。
六本木ヒルズや、みずほ総合研究所、日本全国の商工会など講演多数

メディア出演・取材は、NHK「おはよう日本」、フジテレビ「めざましテレビ」、読売新聞、朝日新聞、毎日新聞、東京新聞、RKBラジオなど多数