未知語処理は報われるのか

あけましておめでとうございます。本年もよろしくお願い申し上げます。

一応今年の(自分の中での)目標として英語論文をたくさん読むことにしたので、今週はこの2本を読んだ。

Word Extraction from Corpora and Its Part-of-Speech Estimation Using Distributional Analysis
Shinsuke MORI, Makoto NAGAO
Coling 1996

The Effect of Corpus Size on Case Frame Acquisition for Predicate-Argument Structure Analysis
Ryohei SASANO, Daisuke KAWAHARA, Sadao KUROHASHI
IEICE TRANSACTIONS on Information and Systems
Vol.E93-D, No.6, pp.1361-1368 (2010.6)

修論中なので、近しい人の論文ばかりでちょっとアレだが。
前者はbi-gramの分布類似度を使って未知語獲得をする話。未知語獲得や語義獲得に分布類似度を用いるというのは今や当たり前になっている話だが、15年前にこの研究をやっているというのには驚かされる。

森先生は「初めての自力Coling」だと言っていたが、ということはD1のときに書いてD2のときに発表した論文だよなあ。僕も今国際会議に投稿したりしているものの、河原先生に真っ赤に直された論文を投稿しているので(冗談ではなく添削の結果紙の枚数が2倍くらいに増えて返ってくる)、自力国際会議と言える日はいつになるかなあ。

後者は格フレームを使った格解析やゼロ照応解析などの話で、格フレームの量と解析精度の相関を調べている。結果はとても順当。修論に必要なので読んだが、「こうなる」と明らかに予測できるものでも「こうなりました」という結果が示せていないと言い切ってはいけないものだと思うので、引用する側としてはとても有り難い。


自然言語処理において統計的が主流である以上、未知語の問題というのは常に生じてくる問題である。品詞推定や単語分割ではこの問題はクリティカルだし、格解析も同じで、結局この用言にはこういう素性がこの格でかかりやすい、という知識がないと問題を解くことは難しい。

計算機の機能が飛躍的に向上した昨今、語彙サイズを拡張することによって未知語の問題を避けるという方法も一つのアプローチだとは思うが、言語が社会において使われるものである以上、語義や語彙は無限に拡張していくもので、そうした時代の変化に教師なし学習で対応できるようにしたい。できるようになればうれしい。

辞書の語彙サイズが大きくなり、全体の精度を見れば未知語の問題はそれほど大きな問題ではなく、未知語処理をしてもその効果が微々たるものにしか見えない(気がする)。しかし、新しい語彙・語義というのはクリティカルな内容語に多く生まれるもので、そういう影響ってもっと定量的に測れないのかなあ、と思ったりもする。


M1のとき森先生の演習で言語モデルを作ったときは、未知語処理が一番実装が難しかった覚えがあるし、「システムが知らないものを、どうシステムが自動獲得できるようになるか」が博士の間の大きなテーマになりそうな予感。

それより先に修了せんといかんのですが。


今年は研究室の新年会で

  • 論文誌に掲載される
  • 国際会議にlong(oral)相当で通る

という目標を挙げたが、それに加えて、

  • 週2本以上英語論文読む

というのを目標にしようと思います。本当にできたら100本読めちゃうね!
それでは重ねてになりますが、本年もよろしくお願いします。