ゼロ照応解析について

昨日先輩の公聴会に行って、ゼロ照応解析の話を聞いたのでいくつか思ったことを。
まずゼロ照応解析とは、述語項構造における省略された必須の格を復元したもの。例えば、

彼はクラシックが好きです。
昨日も聞きました。

の例だと、後者の”聞きました”のガ格(主格のようなもの)は一文前の”彼”になる。この場合、後者の”聞きました”のガ格にゼロ代名詞(つまり必須格の省略)があると見なし、そのゼロ代名詞が一文前の”彼”を照応しているという解釈をする。つまり、

彼は クラシックが 好きです(ガ格:クラシック)。
昨日も 聞きました(ガ格:φ1, ヲ格:φ2, 時間:昨日)。
φ1=彼, φ2=クラシック

というような解釈になる。昨日の話はこのゼロ照応に、外界照応(文書内に照応先がなく、外界の何かを照応しているような場合)で著者、読者を指す場合を導入するという話だった。詳しく知りたい場合は以下を参照されると良い。

"Japanese Zero Reference Resolution Considering Exophora and Author/Reader Mentions"
Masatsugu Hangyo, Daisuke Kawahara, Sadao Kurohashi.
In Proc. of EMNLP 2013, pp. 924--934, 2013.


述語項構造解析をしたい場合、まず述語となる用言及び事態性名詞を探し、次にその述語の必須格の推定をした上で、最後に格要素が何かを当てる必要がある。述語の必須格の推定は、人によってゼロ代名詞検出と言ったり、述語語義の推定と言ったりする(=述語語義が定まれば必須格はわかる)。ちなみにこの必須格の推定をサボると、推定精度が10%以上ガタ落ちする(以下の論文Table2のw.o. feat. (3))。

"Predicate argument structure analysis using partially annotated corpora"
Koichiro Yoshino, Shinsuke Mori, Tatsuya Kawahara.
In Proc. of IJCNLP 2013, pp. 957 -- 961, 2013.


ただ、1、2段階目の述語となる用言及び事態性名詞探し、述語の必須格の推定は人間にも難しいようだ。コーパスを作る際のアノテータのアノテーション一致率の話があったが、これらがGivenでないと人間のアノテータもかなりの割合で間違うようだ。特に、事態性名詞を述語と認定せずアノテーションが全くなかったり、存在する格でも存在する場合・しない場合があるものがかなり難しいらしい。この問題は格フレームでだいぶ解けるということらしいが、どれくらいの適合率・再現率で解けるのかということは少し気になる。あと、基本的に格に入るものは1つになるというのがアノテーションの常道で、2つ以上ある場合は照応として認定することになるのだが、これらは同時に解いても良いんじゃないかと思う(並列と照応をどう扱うかという問題があるのだが)。


あとゼロ照応に限らず述語項構造解析一般の問題になってくるのだが、述語項構造解析は一般には係り受け解析の後にやることになっている。もちろん述語に対する項の関係というのは係り受けの辺上に付くというのは大原則だし、その前提からゼロ代名詞という考え方が出てくるのもわかっている。しかしその上で、述語項構造解析における係り受け情報の寄与がどの程度あるのか、ということが前から気になっている(調べる時間がない。つらい)(松本先生にも突っ込まれた)。