音声認識ソフト　ドラゴンスピーチ11でセミナー音声を文字化してみたら、、

2013年03月07日

こんにちは、WEBメディア　エヴァンジェリストの押切孝雄です。

前回、惨憺たる結果に終わってしまったドラゴンスピーチによるセミナー音声の自動文字化ですが、
今回は、リベンジです。

セミナー中の私の声を音声入力させていきますので、
ワイヤレスのヘッドセットを購入しました。

ヘッドセットには、マイクがついていて、
私の話した音声をBluetoothで、パソコンに届けます。

高精度なヘッドセットで、音声入力の精度もあがりそうです。

さらに、ソフトに私の声を覚えさせるために、
用意された文章を読んで、トレーニングを1時間くらいおこないました。

これで、ソフトも私の音声の癖を理解してくれたはず。

万全の体制で、セミナーに臨みました。
試したのは、東京でのセミナーと山梨でのセミナーでの2回。

しかし！
セミナー中の音声をライブで音声認識させて行くと、
まったく使いものにならないレベルの文字列が吐き出されました（笑）

結局、セミナーの音声を満足いくレベルで認識させることはできませんでした（＾＾；

理由は、私の滑舌の悪さが1つと、
セミナーの音源のような普通に話すレベルの音声を文字にするのは難しいということです。
そこまでソフトが進歩していないと思います。

（極めて個人的な感想なので、
セミナーの音源が、ライブでそのまま音声認識できる講師もいるとは思います。
私の場合は、あまり、、ということです。）

しかし、音声入力用に、パソコンに向かってゆっくりはっきり話すとなると別。
こちらは精度が非常に高いです。

というわけで、本の原稿を作るために音声入力をする時は、
パソコンに向かってゆっくりはっきり話す方式ですすめることとします。

さらに、インターネットに繋がっていれば、
私はAppleの音声認識をおすすめします。

私の音声を、インターネットで識別して、文字化してくれるので、
精度が高いです。

多くの人が使用すればするほど、より精度が高まっていくでしょう。

ただ、アップルの音声認識の場合は、長く話すのには向いていません。
数十秒くらいの、ある一定の時間で、認識が締め切られるからです。

1時間とか長い時間、ずっとしゃべりっぱなしで、
それを自動的に音声認識していく場合には向いていません。

今回、いくつかの音声認識ソフトやアプリで実験ができて良かったです。
どのくらいの精度があるのか、どのくらいはっきり話せばOKなのか、
音声認識の限界がわかりました。

5年くらいしたら、もっと音声認識の技術が上がって、
ナチュラルスピードで講演している音声も書き取ってくれる世の中になるかもしれません。
技術革新に期待です。

　

押切孝雄（おしきりたかお）
株式会社カティサーク代表取締役
デジタルマーケティングコンサルタント
文京学院大学准教授
押切孝雄の詳しいプロフィールはこちら

ホームページの問い合わせからの売上だけで、数億円アップさせる企業が続出するなど、特にBtoB企業のホームページリニューアルと改善のコンサルティングに実績がある。

理論と実践を重んじるため、実際の企業のマーケティングで効果が実証されたことは、著書（7冊以上）で理論化し、さらに大学で講師（WEBマーケティング）をするなど、若い世代への指導にもあたっている。

会社のミッションは、WEBの効果的な活用法を世界中に広めること。
六本木ヒルズや、みずほ総合研究所、日本全国の商工会など講演多数

メディア出演・取材は、NHK「おはよう日本」、フジテレビ「めざましテレビ」、読売新聞、朝日新聞、毎日新聞、東京新聞、RKBラジオなど多数