SLP, SIG-SLUD(前編) - あしたからがんばる ―椀屋本舗

IPSJ-SLP, SIG-SLUDにいってきた。

この２つの並列開催は実は歴史的なことだということで、先生が「１０年の時を経てついに和解が…」みたいなことを冗談で言っていたが、実際そのへんは笑い話でもないと思う。僕みたいなペーペーにも２つに壁みたいなものがあるのはわかったし、実際並列開催しているのに、一部のお偉い先生がずっと片方にしか顔を出さなかったのは残念だと思う。一部の先生は行ったり来たりしていたが。
双方にはそれぞれいいところ悪いところがあって、お互いが自分のいいところと悪いところを認識できていればいいと思う。相手の悪いところしか見えない、という関係は一番良くない。
実際SLPは手法もすごい発表も多いけど、「この研究にはこういう社会的意義があります」という観念が希薄な気がするし（別にそれはそれで悪いことではないという主張もあるが）何より議論が手法に偏ってしまっていて、「これをどういう視点から見て考えるともっとよくなるんじゃない？」みたいな研究のアウトラインに関する議論が少なかった。若手のコメントも少ない気がしたし。
逆にSLUDは議論が活発なんだけど（議論用の時間もSLPより長い）、手法の議論をしようとすると「そういう理系的な手法は苦手で…」というような反応をする人もいて、「おいおし、ちょっとそれは違うんじゃないの？」と思ってしまうこともある。研究に文系も理系もないと思うし、自分の研究にそういう手法が必要だと思えば積極的に学ぼうとすることは重要だと思う。頑張れば何もかもわからないなんてことはまずないと思うし。

まあ、そのあたりは置いといて、気になった発表でも何点か。僕は初日は主にSLPにいて、２日目の２コマ目からはSLUDにいたが、

まずTRLで森先生の同期だった人の発表

音声合成を用いたインターネット動画用音声ガイド
立花隆輝, 長野徹, 西村雅史 (日本ＩＢＭ)

これはネットで配信しているような動画（ドラマとか映画とか、あるいはE-learning系の動画）に視覚障害者の方に向けて音声合成を付けるというような話で、確かにそういうニーズはあって、TTSが社会の役に立つ場面だとは思うんだけれども、ドラマのシリアスな場面とかでTTSで解説を入れられたりしてしまうとどうしても我々健常者にはおかしく思えるというか、笑いそうになってしまう。確かにそういう需要はあるんだろうけど、これは視覚障害者の方に判断してもらうしかないんだろうなあ、という内容でした。

その後の音声対話のセッションでは、自分の分野だけに興味深い発表はいくつかあったけども、現状の音声対話システムの研究で、どうしても問題だと思う点が、どの研究でも問題になっているような気がしてならなかった。
それは処理速度の問題とも関係するのかもしれないが、音声対話システムの応答の枠組みが、基本的に

[音声認識] → [内部処理] → [TTS]

になっているということ。この一連の処理が即時的にできることはないということ。
中でも音声認識が、人の発話が終わってから認識をはじめ、その処理が絶対に１、２秒程度はかかってしまうということがこの問題を決定的にしている気がする。
特にJuliusは、発話が終わってから音素列に対して音響モデルでForward探索をかけ、その後で言語モデルでBackwardサーチ（！）をかけているので、どうあがいたってユーザの発話が終わるまでに認識を始めようがない。
これにその後の処理を入れると、どうしてもシステムの応答は３〜５秒遅れてしまうので、ユーザが間を読んで行う次の発話と被ってしまったり、とんちんかんな応答になってしまう。特に対話システムに積極的に話しかけてくれるような人に限って、そういう傾向になってしまう気がするので、これは絶対に改善しなければならない点だ。

今対話の研究は、音声認識後、発話までを中心に行われていて、それ以外の情報（目線とか）も利用してうまくできるようにしましょうみたいな研究もあるが、僕はここを改善しないと、音声対話の研究は絶対にうまくいかないと思っている。
人間が相手の発話に対してなぜ即時的な応答ができるかというと、相手の次の発話を予測しているからで、それに対する応答をある程度パターン化するか考えているからだと思う。音声対話にも本当はこの枠組が必要で、ユーザの発話をある程度予測して、情報探索の幅を狭めておかないと、即時的な応答を行うことは難しい。

その後夜はパネルセッションで、音声対話研究の今後を考える、という話だった。まあ、パネル討論という割には若手のパネルセッションがあって、それに対してSLP系の偉い人達が結構ひどいことを言って終わった気がする。結局中堅くらいの先生方にうまくまとめられてしまったが、あそこで若手の人間が偉い人に対して反骨精神を見せるようにならないと、業界全体が停滞してしまうと思うし、活発な討論にはならないと思う。（僕もそうするべき側なのはわかっているが）

夜は飲み会で、たぶん東大の先生が、なんで日本の学生は博士に行きたがらないか、みたいな話をしていたが、そりゃ博士に未来がなさすぎるからですよ、なんとかして下さい、みたいな話をした（ぇ
でまあ、先生側では就活で失敗したような学生が、修士、博士とどんどん大学院に流れてくるのが不満らしい。そりゃ時期的に仕方ない話だと思うけれども。博士は人的リソースが企業と競合するものだから、良い人材を手に入れたいなら、企業が採用活動を行ってるような時期に大学院入試を行わなければならないと思う。
あと、博士に関してはよくない話がどんどん流れているから、なによりも若手研究者を業界を挙げて守るような仕組みが必要だと思うし、優秀な中でも目先の鼻がきく人間が、「あ、博士行けば特じゃん！」と思うような状態を作らなければだめだと思う。

２日目の午前のセッションはSLPにいて、音響の話が中心だったので、あまり込み入った話はできないが（こう言ってしまうのもよくないと思う。少なくとも対話システムの研究をすると言うからには、認識、テキスト処理、パターン認識、音声合成ぐらいのことは一通りできているべきで、それらを総合的に使える人間でないと対話の研究者にはなれないと思う）うちの研究室のM2の先輩が共同研究をしているPodCast関連の話があった。

PodCastle：ポッドキャスト音声認識のための集合知を活用した言語モデル学習
○緒方淳, 後藤真孝 (産総研)

PodCastは雑音やらBGMやら不明なマイク環境やら、そもそも音声認識不可能な要素がてんこ盛りなわけで、先輩も言語的素性は全く使わず研究をしていた。それを実際に認識してみると、言語モデルをきちんと作ってもWERが50%弱。
これは音声認識としては使い物になっていないレベルだが、ユーザが訂正してくれた認識結果を言語モデルに詰め込んで、その回以降の認識に反映させることによって、どんどん認識率が向上していくという話だった。
ディクテーションの精度まではたぶんいかないだろうけど、80くらいあっていればあとは人手で直すコストもそこまで高くないと思うので、是非頑張って欲しい。

ちょっとだらだら書いてたら長くなったので、今回はこの辺で。
続きはまたかきます。