ACL2日目

Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections
Dipanjan Das and Slav Petrov

今回のベストペーパー。
なんかUnsupervised POS Taggingの歴史について長々しゃべっていた気がするけど、たぶん言ってることとしてはtri-gram分布類似度を使ってグラフを作って品詞グループを推定するとか、多言語でも分布グラフのアライメントを取って精度を上げるとかそういうことをするんだと思う。例によって英語に自信がないので正しいかはわからない。

本人も言ってたかもしれないけど、最近UnsupervisedとSupervisedの境界が曖昧になってきていて、正解ラベルつき教師データを使っていなければなんでもUnsupervisedかと言われると、シソーラスを使うんならそれはSupervisedだと思う(@mhagiwaraさんも言ってた)。


Short Paper Session中はSpoken ConversationとInformation Extractionにいたが、質疑を含めて15分しかなく説明者も時間がないからどんどんはしょってすすんでいくので、あんまりわからず疲れだけが残ってしまった。語学力のなさを痛感する。

ひとつ印象に残ったのは

Relation Guided Bootstrapping of Semantic Lexicons
Tara McIntosh, Lars Yencken, James R. Curran and Timothy Baldwin

でintraな関係性とinterな関係性を分けて学習するというところで、Domain-dependentなパターンとGeneralなパターンがあるのは当然で、分けて学習すべきだよなあ、と自分の研究の方向性を確認する。

あとはこれ

Learning Sub-Word Units for Open Vocabulary Speech Recognition
Carolina Parada, Mark Dredze, Abhinav Sethy and Ariya Rastrow

音声認識において未知語の問題はクリティカルに認識率を下げるが、オープンドメインではどうしても未知語の問題が出てきてしまうのでサブワードモデルを使ってこれを解決しましょうという話。以前からある研究で、きちんとした評価をしてきたのが今回のポイントらしい。

大規模コーパスの未知語候補になりそうなものをもっと細かい単位に分けて、そこからサブワードモデルを学習する。言語処理の言語モデルで言うなら、文字n-gramがこれにあたるんだと思う。