ベイジアンの集い - あしたからがんばる ―椀屋本舗

京阪奈音声若手研究者の集い＠NAISTなるものに参加してきました。ていうか、ベイジアンの集いでした。ベイズに魂を引かれた者たちの集い。僕はディリクレ過程でスムージングとかしかやったことないんでベイジアンとはとても言えないんですけど。

以下自分用メモ。
一回ここでもやったはずのノンパラメトリック法に関するおさらいをしていて、ディリクレ過程（ていうかChinese Restaurant Process）の基底測度について正しく理解していなかったことが発覚した。Chinese Restaurant Processにおいて新しいテーブルが選択される確率が基底測度だけど、選択された新しいテーブルで今までに選ばれた料理（言語モデルでいうと単語）を選んでもいいのね。ただ結局NaiveBayesによる他クラス分類なんかのスムージングに使う場合は、観測データにおいて同じ料理（単語）が乗っているテーブルはクラス数分しかないので、実装が間違っていたわけではなかったみたい。数式通りにやってみたら実装はできたけど、中身を正しく理解できてない典型例だった気がする…この基底測度は結局正規化項として働くので、サイズの揃っていないコーパスを使ってもうまいことαが推定できる。なるほど。

で、ようやくトピックモデルやらで使われてる階層的モデルやPitman-Yorの意味がわかった（おそっ
今まで基底測度にあたるところが何を意味してるのかわかってなかった。@neubigさんに感謝。

わかってなかったところを抜けてようやくHMMのギブスサンプリングの式とかもわかったので、またそのうち実装してみようと思います。