ここ最近修羅場だったので更新していなかったのだが、ようやく落ち着いた。とりあえず金曜にSLPを出し、月曜にUC研究会で発表をし、さっきUsing POMDPs for Dialog System輪講を終え、怒涛の一週間だった。結果として意図せず見れてしまったW杯の深夜中継が4回くらいあったわけだ。ただ、POMDPsの話はSDSにどう使うかはわかったけど、細かいところで不完全燃焼な感じなので、もう少しSteve Youngに粘着して論文を読んでおこうと思う。

とはいっても明日研究室でNAACL HLT 2010 - Los Angeles, CAの読み会があるのだが。僕は

Whitney L. Cade, Blair A. Lehman, Andrew Olney
An Exploration of Off Topic Conversation

をやろうと思っているので(本当はもう一つ考えていたけど諦めた)、京大言語クラスタで興味のある方はどうぞ。他にもいろんな人がいくつか興味のある論文を読んでくれるので、聞くだけでもよいと思う。


最近できる限り色んな研究会や勉強会に顔を出そうと思っているのだけれども、同学年で博士進学を希望している人は結構いるはずなのに、会う機会は意外と少ない。これは結構勿体ないことだと思う。この前松山研の同期で進学する予定の米谷君の発表を聞いたが、英語でしっかりと質疑もできていて、僕もちゃんとああいう感じにできるようにならないとなぁ、と思った。英語はリーディング、ライティング、リスニングはこの1年でそこそこできるようになったと思うけど(語彙量はないけど)いかんせん、スピーキングは語彙がものを言うので、英語の発表に質問しても、そこから思うように英語で議論ができない。うーむ。これも習うより慣れなのかなぁ。


そういえば前の日記でBaiduの不自然言語処理コーパスの話をしたが、Twitterで呟いた、auコーパスがアダルトワードに偏っているという話で、@neubigさんがそれを求めたスクリプトを公開した。

dirichlet-topic.pl 1.0

僕がSLPに出したネタ用に@neubigさんに教えてもらったものだが(僕も教えてもらいながらちゃんと実装はしたよ!)各キャリアをtとすると、P(t|w)をディリクレ分布のスムージングをしながら求めてくれる。

僕は自分のコードが汚いと思っているのでこういう風に公開する勇気がないんだけど、やっぱり公開したりしてコメントをもらった方が綺麗なコードが書けるようになるのかな。