EMNLP・COLING読み会まとめ

今朝最近恒例の論文紹介(今回はEMNLPとCOLING)の読み会をやった。
僕は昨日(今朝?)の2時くらいまで読む時間がとれず、ぎりぎりになってしまったが(こういう生活もよくないと思う。逆算してLinearにタスクを終われるようになりたい)2本紹介した。…が結局あまりきちんと紹介する時間がなくて残念。2本ともアイディアは面白かったので、まとめておく。

Inducing Word Senses to Improve Web Search Result Clustering
Roberto Navigli; Giuseppe Crisafulli (EMNLP)


Multi-Sentence Compression: Finding Shortest Paths in Word Graphs
Katja Filippova (COLING)

両方ともグラフを使う話で、前者は語義の曖昧性を解消するグラフ的な手法を用いてWebのサーチ結果をクラスタリングする話。

Word Sense Inductionと呼ばれるタスクで、グラフクラスタリングによってこれを実現する。グラフクラスタリングアルゴリズムとしては、スニペットにおける共起頻度ベースでグラフを作った後、エッジを切っていく。このエッジを切るときに、距離nのそのヘッド同士の迂回路が経路に対していくつあるか、ということを利用する。つまり、n=3だとグラフの形はsquareになる。そうしてできた各クラスタに代表する名前をつけて利用する。(syou6162さんが図を載せている)
EMNLP 2010一日目、二日目の内容 - yasuhisa's blog

これによって単語クラスタがどれくらいうまくできているか、またサーチ結果のクラスタリングをしたときに、どれくらいwebを上位のランキングでカバーできているか、という評価だと思うのだが、評価がいまいちよくわからんかった。


後者は要約のための文生成の話で、従来の要約は文構造を使ったりしていますけど、今回は単語のグラフ構造だけを利用して複数文から要約を生成しますよ、ということ。同じ内容を含むような文で、同じ単語は同じヘッドにマッピングして、そこからどの単語に移るかということをグラフで表現。エッジとヘッドの頻度を重みとして、コストを最小化するような単語列のパスを探す。このとき、動詞を含まないパスや、短すぎるパスは検討しない。

ちなみにエッジの重みは、両側のヘッドの頻度とエッジの頻度から計算され、また共起頻度が高いような部分パスはそこのコストが低くなるようにする(共起頻度の高い単語は重要である可能性が高いため)。ただし、これが悪さをしないよう、経路の長さを入れて、経路が短い方がコストが低くなるようにする(ここの部分を勉強会で時間がなくて喋れなかった)

方法としてはマルコフ文生成をグラフ的にやっているような感じで、マルコフ生成よりはだいぶよさそうな気がするのだが、実際にマルコフ生成と比べられるとベースラインが弱いように感じた。


他の発表者の方の文もメモを取ったので、参考程度に。間違っていたら是非ご指摘下さい。

河原(大)先生

Identifying Functional Relations in Web Text
Thomas Lin; Mausam; Oren Etzioni

  • Functional Relation をWebから同定するタスク
  • 後に来るものとか決まるものとか一意に決まるもの
  • 問題の整理をしている論文
  • was born in "時間|場所" 入るもの全てがfunctional ならfunctional
  • IN:arg1,relation phrase,arg2
  • 概念の上位下位、表記ゆれの問題などがあってうまくいかない
  • functional,not functional の取りうる単語のヴァリエーション数の傾きを取り、その傾きの傾向から見たり
  • Clean list(曖昧性のあるものを解消する場合)+傾きを見るバックオフ


Learning Recurrent Event Queries for Web Search
Ruiqiang Zhang; Yuki Konda; Anlei Dong; Pranam Kolari; Yi Chang; Zhaohui Zheng

  • 周期的に起こるようなものの認識
  • Festival, public holiday, EMNLPの開催など
  • 最近のものを検索のトップに持ってくるようなタスク(REQ
  • supervised, featureの選択次第
  • クエリログやセッションログ、クリックログを使う
  • 時系列的な傾向を捉えてトップに持ってくるものを変える
  • 一番利いたのがクエリログ、時系列ログ
  • popularityがなかなかたまらないのが問題


Metaphor Identification Using Verb and Noun Clustering
Katerina Shutova; Lin Sun; Anna Korhonen

  • メタファーの認識をクラスタリングでやる
  • 新しい語義獲得してるだけじゃ?

@cacahoさん

Alexander M Rush; David Sontag; Michael Collins; Tommi Jaakkola
On Dual Decomposition and Linear Programming Relaxations for Natural Language Processing

  • 係り受けを考えるとき、パージング+構文木のjoint inferenceをやりたい
  • それぞれのAlgorithmとしてはDPで最適に求めることができるが混ぜるのが難しい
  • 交互にやってまぜまぜf(y) + g(z)みたいなイメージ(それぞれの評価関数を最大化する
  • CKYとHMMを単独で一番いいものをみつけて、ずれているものに対してイテレーションのためのペナルティを加えて、交互に計算する
  • 両方ひっくり返った場合はペナルティを小さくしてどちらかだけひっくり返るのをまつ
  • 収束しない場合もある


Fang Kong; Guodong Zhou
A Tree Kernel-Based Unified Framework for Chinese Zero Anaphora Resolution

  • ゼロ代名詞の推定をツリーカーネル
  • ある用言がゼロ代名詞を持っているかどうか、先行詞にあるか、それを特定できるか
  • 日本語→あるかないかという判断はあまりしない(格が必須かどうか判断が難しい
  • それぞれタスクに応じた適切な部分木を作って推定
  • 中国語のゼロ代名詞は8割程度が同じ文、残り2割が1文前
  • ツリーの類似度をSVMの素性に突っ込む


Stephen Boxwell; Dennis Mehay; Chris Brew
What a Parser Can Learn from a Semantic Role Labeler and Vice Versa

  • セマンティックロールラベリング
  • N個のパーズ結果をリランキングする

@murawakiさん

Yoong Keok Lee; Aria Haghighi; Regina Barzilay
Simple Type-Level Unsupervised POS Tagging

  • HMMのType-baseのPOSタギング
  • 1単語1タグと決め打ち
  • 単語ごとにサンプリング
  • 収束速度、精度が上がる
  • 普通のディリクレ分布の組み合わせ
  • 異なり数を考えるとaとかthe(DT)は低頻度
  • NNSなどはバリエーションがあるので高頻度


Mark Johnson; Katherine Demuth
Unsupervised phonemic Chinese word segmentation using Adaptor Grammars

  • 教師なし中国語(音)単語分割
  • 赤ちゃんへの発話(の書き起こし)から単語分割モデルを学習する
  • どんな言語でも獲得できるモデルを作るためには?
  • Pitman-Yor言語モデルでやる
  • PCFGのようにルールを記述
  • 声調を入れても精度は上がらない、単語連接のほうが上がる

@neubigさん

Constituent Reordering and Syntax Models for English-to-Japanese
Statistical Machine Translation
Young-Suk Lee; Bing Zhao; Xiaoqian Luo

  • 手でリオードリングルールを書いて、それをフレーズベースに突っ込む
  • 構文木を使ったモデルにも勝ってる
  • 主語に擬似的な単語を入れて、日本語の助詞とアライメントを取ってる
  • 構文木のリオードリングルールは文脈依存文法も使う


Joint Tokenization and Translation
Xinyan Xiao; Yang Liu; YoungSook Hwang; Qun Liu; Shouxun Lin (Chinese
Academy of Sciences)

  • 単語分割+機械翻訳
  • 分割候補をラティスに入れるのが今までの手法
  • 識別モデルで全部まとめて(ロジスティック回帰
  • 言語モデルベースの単語分割用の素性も突っ込む
  • 未知語モデルも素性に入れる(未知語はまとめてあるほうがよい
  • 学習コーパスとして単語分割用のモデルとアライメントを取ったモデル

@mhangyoさん

Efficient Graph-Based Semi-Supervised Learning of Structured Tagging Models
Amarnag Subramanya; Slav Petrov; Fernando Pereira

  • CRFでPOS Taggerを作る
  • 対象ドメインのPOSつきデータはない
  • グラフを作ってtri-gram類似度をはかり正解データをつける
  • simの近い5個だけエッジを張る
  • 動詞のまわりには同じ位置に動詞があるものが、
  • 名詞のまわりには同じ位置に名詞があるものが集まる
  • CRF+semi-supervised
  • ラベルがついてるものから学習→類似したやつに確率を与える→CRFの学習 以下繰り返し


そういえばTwitterに書いたけど、わけあって@mamorukさんにCVを送ったのだが、凄く丁寧な添削を付けて返して頂いてびっくりした。

英語を結構なおされたけど、一度大筋を作ってしまえばしばらく使えるものなのでありがたい。ありがとうございます。

CV書いてて思ったけど、まだまだ内容がスカスカだなあ…卒業するまでにはこれをもっと埋めてたい。