■
毎週火曜に黒橋研でやってる機械学習の勉強会に参加しているのだが、今日もあるつもりで行ったら今日はなかった…なぜなかったのかは忘れたが、僕は朝弱いのでがっくりである。まあ、自分が悪いわけだが…
自分のキャパが少なくて、参加していても半分も理解できているのか怪しいのだが、大学院生になった直後はあえて手加減しないほうがいいでも書かれているように、自分がやっていることに関連がありそうな勉強会などは、行けるのならば、少しくらいわからなくても積極的に参加する方が将来ためになると信じて参加している…ほんとにわからなくなってしまうと、大丈夫?と聞かれても曖昧にしか答えられないので辛いのだがw
参加していると何度も同じ話が出てくるのでそういうものもわかってくるし、ああいう勉強会は業界の動きに敏感な人が数人はいて、そういう人が紹介する論文を見ているうちに今はどんな題材やテクニックが流行りなのかを知ることができる。まあ、あんまり流行りに乗りすぎてもロクなことがないし、小手先でそういう論文をちょいちょいっと書くのは格好悪いと思ってるけど。
今やっている研究内容の都合上、必要な分野単語を辞書にちょくちょく追加しているのだが、追加した単語がついに2000越え、固有表現タグも新しいものが5つくらい、とかなるとなんかなぁ、という感じ。元の分割体系に沿っているのかもちょっとわからなくなっているし、拡張固有表現の話ももうちょっと真面目にやればそれで発表ができると思うんだけど。ただ、僕がこうやって作ったデータをKyTea (京都テキスト解析ツールキット)で読み推定や品詞推定、拡張固有表現推定なんかで利用して貰えるのは、自分の作業が自分一人だけのためでごにょごにょして終わらないので嬉しい。
そういえばデータ整理で思い出したけど、先週マルタでLREC2010があってうちからも森先生が参加してこられた。LRECは少数言語のコーパスを整理して形態素解析をしたとかそういうデータ整理寄りの話が多いらしい。ACLやEMNLPみたいな機械学習とかの手法寄りの会議とは毛色が違うけど、そういう地道なデータ整理、データ収集も立派な研究であるということを、もう少し言語処理の人は認めてもいいと思う。どうしても言語処理系だと手法の研究こそが崇高、みたいな感じになってるし、そういう手法を組み合わせてヒューリスティックなしにばばばっとやるのが格好いいと思っている人が多い気がするけど(僕もそう思っていた)、データ整理という地道な作業をする人がいるからこそ、言語処理は実用の世界まで行ける、と信じている。確かに手を動かすだけだから凄い気はしないのかもしれないけど、ACLの論文の本数を競うよりは、こういう会議の業績ももうちょっと評価されていいんじゃないかなあ、と思った。
- -
追記
Wikipediaのn-gramが公開されたようで。
2010-05-22
最近買った本、読んだ本。
猫でもわかるネットワークプログラミング 第2版 (猫でもわかるプログラミングシリーズ)
- 作者: 粂井康孝
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2006/02/25
- メディア: 単行本
- 購入: 1人 クリック: 16回
- この商品を含むブログ (11件) を見る
- 作者: 高須賀由枝
- 出版社/メーカー: 集英社
- 発売日: 2010/05/14
- メディア: コミック
- 購入: 1人 クリック: 12回
- この商品を含むブログ (12件) を見る
- 作者: 二ノ宮知子
- 出版社/メーカー: 講談社
- 発売日: 2010/04/26
- メディア: コミック
- 購入: 16人 クリック: 618回
- この商品を含むブログ (180件) を見る
どうも最近文庫を読むのが辛くて漫画ばっかり読んでよくない。
あと、気付いたら聖戦の系譜はじめてた。
- 出版社/メーカー: 任天堂
- 発売日: 1996/05/14
- メディア: Video Game
- 購入: 1人 クリック: 54回
- この商品を含むブログ (33件) を見る
FEシリーズでは聖戦の系譜が一番好きだし面白い。世界観が好きなのかな。トラキアも好きなんだけど、やっぱり難易度が厳しくてちょっと辛いからあんまりしょっちゅうやる気にはならんなぁ。聖戦は5周目くらい。