EMNLP・COLING読み会まとめ - あしたからがんばる ―椀屋本舗

今朝最近恒例の論文紹介（今回はEMNLPとCOLING）の読み会をやった。
僕は昨日（今朝？）の２時くらいまで読む時間がとれず、ぎりぎりになってしまったが（こういう生活もよくないと思う。逆算してLinearにタスクを終われるようになりたい）２本紹介した。…が結局あまりきちんと紹介する時間がなくて残念。２本ともアイディアは面白かったので、まとめておく。

Inducing Word Senses to Improve Web Search Result Clustering
Roberto Navigli; Giuseppe Crisafulli (EMNLP)

Multi-Sentence Compression: Finding Shortest Paths in Word Graphs
Katja Filippova (COLING)

両方ともグラフを使う話で、前者は語義の曖昧性を解消するグラフ的な手法を用いてWebのサーチ結果をクラスタリングする話。

Word Sense Inductionと呼ばれるタスクで、グラフクラスタリングによってこれを実現する。グラフクラスタリングのアルゴリズムとしては、スニペットにおける共起頻度ベースでグラフを作った後、エッジを切っていく。このエッジを切るときに、距離nのそのヘッド同士の迂回路が経路に対していくつあるか、ということを利用する。つまり、n=3だとグラフの形はsquareになる。そうしてできた各クラスタに代表する名前をつけて利用する。（syou6162さんが図を載せている）
EMNLP 2010一日目、二日目の内容 - yasuhisa's blog

これによって単語クラスタがどれくらいうまくできているか、またサーチ結果のクラスタリングをしたときに、どれくらいwebを上位のランキングでカバーできているか、という評価だと思うのだが、評価がいまいちよくわからんかった。

後者は要約のための文生成の話で、従来の要約は文構造を使ったりしていますけど、今回は単語のグラフ構造だけを利用して複数文から要約を生成しますよ、ということ。同じ内容を含むような文で、同じ単語は同じヘッドにマッピングして、そこからどの単語に移るかということをグラフで表現。エッジとヘッドの頻度を重みとして、コストを最小化するような単語列のパスを探す。このとき、動詞を含まないパスや、短すぎるパスは検討しない。

ちなみにエッジの重みは、両側のヘッドの頻度とエッジの頻度から計算され、また共起頻度が高いような部分パスはそこのコストが低くなるようにする（共起頻度の高い単語は重要である可能性が高いため）。ただし、これが悪さをしないよう、経路の長さを入れて、経路が短い方がコストが低くなるようにする（ここの部分を勉強会で時間がなくて喋れなかった）

方法としてはマルコフ文生成をグラフ的にやっているような感じで、マルコフ生成よりはだいぶよさそうな気がするのだが、実際にマルコフ生成と比べられるとベースラインが弱いように感じた。

他の発表者の方の文もメモを取ったので、参考程度に。間違っていたら是非ご指摘下さい。

河原（大）先生

Identifying Functional Relations in Web Text
Thomas Lin; Mausam; Oren Etzioni

Functional Relation をWebから同定するタスク

後に来るものとか決まるものとか一意に決まるもの

問題の整理をしている論文

was born in "時間|場所" 入るもの全てがfunctional ならfunctional

IN:arg1,relation phrase,arg2

概念の上位下位、表記ゆれの問題などがあってうまくいかない

functional,not functional の取りうる単語のヴァリエーション数の傾きを取り、その傾きの傾向から見たり

Clean list(曖昧性のあるものを解消する場合)＋傾きを見るバックオフ

Learning Recurrent Event Queries for Web Search
Ruiqiang Zhang; Yuki Konda; Anlei Dong; Pranam Kolari; Yi Chang; Zhaohui Zheng

周期的に起こるようなものの認識

Festival, public holiday, EMNLPの開催など

最近のものを検索のトップに持ってくるようなタスク（REQ

supervised, featureの選択次第

クエリログやセッションログ、クリックログを使う

時系列的な傾向を捉えてトップに持ってくるものを変える

一番利いたのがクエリログ、時系列ログ

popularityがなかなかたまらないのが問題

Metaphor Identification Using Verb and Noun Clustering
Katerina Shutova; Lin Sun; Anna Korhonen

メタファーの認識をクラスタリングでやる

新しい語義獲得してるだけじゃ？

@cacahoさん

Alexander M Rush; David Sontag; Michael Collins; Tommi Jaakkola
On Dual Decomposition and Linear Programming Relaxations for Natural Language Processing

係り受けを考えるとき、パージング＋構文木のjoint inferenceをやりたい

それぞれのAlgorithmとしてはDPで最適に求めることができるが混ぜるのが難しい

交互にやってまぜまぜf(y) + g(z)みたいなイメージ（それぞれの評価関数を最大化する

CKYとHMMを単独で一番いいものをみつけて、ずれているものに対してイテレーションのためのペナルティを加えて、交互に計算する

両方ひっくり返った場合はペナルティを小さくしてどちらかだけひっくり返るのをまつ

収束しない場合もある

Fang Kong; Guodong Zhou
A Tree Kernel-Based Unified Framework for Chinese Zero Anaphora Resolution

ゼロ代名詞の推定をツリーカーネルで

ある用言がゼロ代名詞を持っているかどうか、先行詞にあるか、それを特定できるか

日本語→あるかないかという判断はあまりしない（格が必須かどうか判断が難しい

それぞれタスクに応じた適切な部分木を作って推定

中国語のゼロ代名詞は８割程度が同じ文、残り２割が１文前

ツリーの類似度をSVMの素性に突っ込む

Stephen Boxwell; Dennis Mehay; Chris Brew
What a Parser Can Learn from a Semantic Role Labeler and Vice Versa

セマンティックロールラベリング

N個のパーズ結果をリランキングする

@murawakiさん

Yoong Keok Lee; Aria Haghighi; Regina Barzilay
Simple Type-Level Unsupervised POS Tagging

HMMのType-baseのPOSタギング

１単語１タグと決め打ち

単語ごとにサンプリング

収束速度、精度が上がる

普通のディリクレ分布の組み合わせ

異なり数を考えるとaとかthe(DT)は低頻度

NNSなどはバリエーションがあるので高頻度

Mark Johnson; Katherine Demuth
Unsupervised phonemic Chinese word segmentation using Adaptor Grammars

教師なし中国語（音）単語分割

赤ちゃんへの発話（の書き起こし）から単語分割モデルを学習する

どんな言語でも獲得できるモデルを作るためには？

Pitman-Yor言語モデルでやる

PCFGのようにルールを記述

声調を入れても精度は上がらない、単語連接のほうが上がる

@neubigさん

Constituent Reordering and Syntax Models for English-to-Japanese
Statistical Machine Translation
Young-Suk Lee; Bing Zhao; Xiaoqian Luo

手でリオードリングルールを書いて、それをフレーズベースに突っ込む

構文木を使ったモデルにも勝ってる

主語に擬似的な単語を入れて、日本語の助詞とアライメントを取ってる

構文木のリオードリングルールは文脈依存文法も使う

Joint Tokenization and Translation
Xinyan Xiao; Yang Liu; YoungSook Hwang; Qun Liu; Shouxun Lin (Chinese
Academy of Sciences)

単語分割＋機械翻訳

分割候補をラティスに入れるのが今までの手法

識別モデルで全部まとめて（ロジスティック回帰

言語モデルベースの単語分割用の素性も突っ込む

未知語モデルも素性に入れる（未知語はまとめてあるほうがよい

学習コーパスとして単語分割用のモデルとアライメントを取ったモデル

@mhangyoさん

Efficient Graph-Based Semi-Supervised Learning of Structured Tagging Models
Amarnag Subramanya; Slav Petrov; Fernando Pereira

CRFでPOS Taggerを作る

対象ドメインのPOSつきデータはない

グラフを作ってtri-gram類似度をはかり正解データをつける

simの近い５個だけエッジを張る

動詞のまわりには同じ位置に動詞があるものが、

名詞のまわりには同じ位置に名詞があるものが集まる

CRF+semi-supervised

ラベルがついてるものから学習→類似したやつに確率を与える→CRFの学習　以下繰り返し

そういえばTwitterに書いたけど、わけあって@mamorukさんにCVを送ったのだが、凄く丁寧な添削を付けて返して頂いてびっくりした。

英語を結構なおされたけど、一度大筋を作ってしまえばしばらく使えるものなのでありがたい。ありがとうございます。

CV書いてて思ったけど、まだまだ内容がスカスカだなあ…卒業するまでにはこれをもっと埋めてたい。