音声認識による字幕付与

「聴覚障害者のための字幕付与技術」シンポジウム2011 — 京都大学
というものにスタッフとして参加してきました。要するに音声認識を動かして、認識誤りを修正しながら講演字幕を作るお仕事です。今回僕は兼子さんの認識を担当しました。


従来のような要約筆記による講演への字幕付与は、筆記者さんの負担やコストが大きく、数人がかりで行われることが多かったのですが、音声認識で下書きを作ることによってPC1台、修正者1名によってこれらが実現できますというのが売りです。


音声認識で字幕を作っていた講演では、並列して要約筆記による字幕も付与していたのですが、見ていた人の話によると認識で作った字幕の方が表示がはやく、質もとても良い(要約筆記に負けていない)という感想を頂きました。


音声認識が何に使えるか、という話はSLP界隈ではよく問題になるのですが、こういった利用法は1つの答えではないかと思います。音声認識の認識率は100%は出ないものの、きっちりモデルや録音環境をチューニングをすれば90%程度は出ます(とはいえそれらのチューニングが技術を正しく理解しないと難しかったりするので、それを容易にすることは課題ではあります)。

過去に研究室で京都のバス案内対話システムというのを電話でやったことがあるそうですが、視覚障害を持っている方がいつも使っていて、なくなるとき困るというお電話があった、という話も聞いたことがあります。自分たちの技術が誰かの役に立つということは、とても嬉しいことです。


先日弊学が行った衆議院の新会議録作成システムにおける京都大学の音声認識技術の導入 — 京都大学という話が話題になりましたが、これをリアルタイムに行って字幕を付けることもできますよ、という1つの成果ではないかと思います。


今回関西テレビの取材がありましたので、気になる方は10月4日(火)16:48- のスーパーニュースアンカーを御覧ください。
http://www.ktv.co.jp/anchor/