某研究会

?IIで某研究会があったので,一応幹事だし,研究会登録もしているので,行ってきた.今回は毎年恒例の?eb ?ntelligence特集だし,注目しているI澤教授の発表もあるということで,非常に楽しみにしていた.
招待講演は同僚のS藤氏と,?IIのO山教授.S藤氏はネットワーク科学の基礎と応用的な内容だったが,基礎を丁寧にわかりやすく説明していたが,どうも最後に講演時間が足りなくなって,非常に楽しい部分をあまり話すことができなかった気がする…でもBAモデルを知らない人が大部分だったので,結局は初心者向けでよかったのかも.O山教授はY社の知恵袋のデータの話.所属によっては使用を許可しない場合があると聞いたので,最初はダメだと思ったのだが,後からY社のK戸氏に聞くと「ちゃんと使えるようにしときましたよ…もちろんR社はダメだけど(笑)」とのことで嬉しい…と言っても,まだ何をしようかは考えてないんだけど(爆)他に,?TCIRのWebタスクの最新データはまだ公開されてないんですよね?と聞くと,実はO山先生としてはすでに公開したつもりらしいが,事務局に何度要求してもWebページを書き換えてくれないので,未だにリンクされていないとか(苦笑)
発表に関しては,まだ完成度は低いがアイデアが面白いものが多かった.しかし,I澤教授の発表には感動した!基本的には,Webデータを類語抽出のコーパスとして用いるという話だが,まず「人手で構築した辞書は役に立たない」という名言から始まり,頻度重視の尺度と語数重視の尺度が,コーパスの規模が大きくなるとどのような影響を受けるかということを説明し,どのようにすればF値を改善できるかという手法を提案していく.「コーパス規模が大きくなることは良いことか?」,「サーチエンジンを利用すると性能を向上できるか?」などの疑問を最初に提示して,それを明確に分析して,解法を提案していく.サーチエンジンを使った自然言語処理でよくある共起情報を得る用途ではあまり高い性能は得ることはできないが,サンプリングに併用するとよいとか,非常に示唆に富む発表内容であった.関連論文をいろいろ教えてもらったので,熟読しようと思う.こういう高いレベルでWebデータを使った大規模自然言語処理を語れる人はあまりいない…他にはG社の中の人ぐらいかなあ.今の研究が一区切りついたら,ぜひアドバイスを貰いたいものだ.