Baiduが「不自然言語処理コンテスト」なるものをやるらしい。

http://www.baidu.jp/unlp/

せっかく公開されてるのでデータを見てみた。気が向いたら参加するかも、くらいの感じ。以下雑感。

  • 絵文字とかが入っているのが売りらしいけど、UTFでコーパスを作ったらそもそも絵文字は入るんじゃないんだろうか
  • 学習データがものすごくアダルトサイトに偏っていて卑猥。「電車 で レイプ」とか普通にtri-gramに入ってる、上にエントリー数や頻度が多い。
  • 5-gram見てたら普通に顔文字が分割されて入ってた。顔文字の前のコンテキストを見たいのに、これはちょっとなあ…と思う。どうやら分割基準はIPA-dicぽいが、「(´Д`)」とかは普通に1単語として扱って欲しかったなあ。

という感じ。とはいえ面白そうではあるので、時間ができたらなんか作ってみよう。

  • -

最近はSLPの原稿書いたり実験し直したりしてますが僕は元気です。