cuttysark

音声認識ソフト ドラゴンスピーチ11でセミナー音声を文字化してみたら、、

2013年03月07日

こんにちは、WEBメディア エヴァンジェリストの押切孝雄です。

前回、惨憺たる結果に終わってしまったドラゴンスピーチによるセミナー音声の自動文字化ですが、
今回は、リベンジです。

セミナー中の私の声を音声入力させていきますので、
ワイヤレスのヘッドセットを購入しました。

ヘッドセットには、マイクがついていて、
私の話した音声をBluetoothで、パソコンに届けます。

高精度なヘッドセットで、音声入力の精度もあがりそうです。

さらに、ソフトに私の声を覚えさせるために、
用意された文章を読んで、トレーニングを1時間くらいおこないました。

これで、ソフトも私の音声の癖を理解してくれたはず。

万全の体制で、セミナーに臨みました。
試したのは、東京でのセミナーと山梨でのセミナーでの2回。

しかし!
セミナー中の音声をライブで音声認識させて行くと、
まったく使いものにならないレベルの文字列が吐き出されました(笑)

結局、セミナーの音声を満足いくレベルで認識させることはできませんでした(^^;

理由は、私の滑舌の悪さが1つと、
セミナーの音源のような普通に話すレベルの音声を文字にするのは難しいということです。
そこまでソフトが進歩していないと思います。

(極めて個人的な感想なので、
セミナーの音源が、ライブでそのまま音声認識できる講師もいるとは思います。
私の場合は、あまり、、ということです。)

しかし、音声入力用に、パソコンに向かってゆっくりはっきり話すとなると別。
こちらは精度が非常に高いです。

というわけで、本の原稿を作るために音声入力をする時は、
パソコンに向かってゆっくりはっきり話す方式ですすめることとします。

さらに、インターネットに繋がっていれば、
私はAppleの音声認識をおすすめします。

私の音声を、インターネットで識別して、文字化してくれるので、
精度が高いです。

多くの人が使用すればするほど、より精度が高まっていくでしょう。

ただ、アップルの音声認識の場合は、長く話すのには向いていません。
数十秒くらいの、ある一定の時間で、認識が締め切られるからです。

1時間とか長い時間、ずっとしゃべりっぱなしで、
それを自動的に音声認識していく場合には向いていません。

今回、いくつかの音声認識ソフトやアプリで実験ができて良かったです。
どのくらいの精度があるのか、どのくらいはっきり話せばOKなのか、
音声認識の限界がわかりました。

5年くらいしたら、もっと音声認識の技術が上がって、
ナチュラルスピードで講演している音声も書き取ってくれる世の中になるかもしれません。
技術革新に期待です。