某ワークショップ - かふぇ・べいぶ別館

最近真面目にまとめるのがめんどくさくなってきたので，ここにメモがわりに書いておくことにする．しかし，真面目に研究職を志す人は，こんな戯言なんか参考にしちゃいかんぞ！（苦笑）

素晴らしいことに資料はすべて公開されている（http://sigswo.org/A803_program.html）．行けなかった人は参考にすべし．
?工知能学会全国大会で，近未来チャレンジとして「?ikipediaマイニング」として論文を募集している．たぶん月曜日の14:00頃が〆切だと思うので，関係者はぜひ応募すべし．ベストプレゼンテーション賞や論文誌への推薦もある．
発表件数は多いが，必ずしもしっかり研究している人ばかりではない．まだ「これからやります」，「とりあえずやってみました」的な人も多かった．
?ikipediaという対象が明確に決まっているために，互いの研究にかなりの重複があった．もちろん，こういうワークショップは，互いの重複を減らして，その分を新たな領域にチャレンジさせるという有益な効果があると思う．
研究用のツールやデータ，テストスイートを「公開してます」，「公開します」という発言があったり，当日参加していた?ikipediaの中の人とのコラボレーションの提案などがあったことは素晴らしいと思う．こういうことは，特定企業のシステムのデータを扱った場合には不可能だ．とりあえず，こういうコミュニティを立ち上げるからには，ツールの共有は重要だろう．
対象とする特徴は，カテゴリ，言語間リンク，修飾記号，編集履歴などがあった．会場からの面白い提案として，曖昧性の回避のためのページの情報を使ってみたら？というものがあったが，それは面白いと思う．
しかし，研究者はそれらの特徴を鵜呑みにしておらず，カテゴリや言語間リンクについては，どの程度信頼できるか？ということに対する分析をしっかりしていたようだった．実際問題として，特性付与時の方針のばらつきや，一貫性が維持されていなかったりして，少々問題があるらしい．質疑応答時のT澤氏の「カテゴリに（そのまま信頼せずに）分類器を使用すると有効」という発言は，やはり真面目に解析しているところじゃないと出てこない言葉である．
T澤氏のところでは，非常に精力的に開発しているようだが，特に（シソーラス的な情報のなかで）上位下位関係と対訳に絞っているのは，やはりそれらが実システムにすぐ使えるような特徴だからなのか？
自然言語系の研究者に関しては，評価方法やテストスイートが整備されているので，数値で結果が出てくるのがよいのだが，若い研究者だと，それに関する明快な説明がないことが多い．ある発表者に同僚のS藤氏が「なぜ良い結果が出るかよくわからないので，直感的に説明してください」と質問したのだが，結局答えられなかった．統計的手法を採用する場合に，入力がきっちり決まっていれば結果がどうなるか答えられるのだが，?ikipediaのように入力が曖昧（さまざまな特性が付けられているのだが，方針が統一されておらず，ばらばら）になってくると，数値で良い結果が出ても，そのまま鵜呑みにはできない…例えばパラメータを増やした場合には，単にテストスイートにオーバーフィッティングしているだけで，手法として良いわけではないという可能性もある．こういう場合でも論文としては通るのだろうが，統計的な手法で?ikipediaのような曖昧なデータを処理する場合には，「それがなぜ有効なのか」ということを論理的に述べることができないと，それは工学的なアプローチとは言えないのでないかと思う．
「なぜ?ooではなく，（すでに同じ機能が標準搭載されている）?oogleを使わなかったのか？」と質問したが，会社名を名乗るのを忘れた…もし名乗っていたら爆笑ものだったかも（苦笑）それにしても，もう世の中で普通に使われている技術を，すでに多くの研究で良くないと判定された手法で再発明して，しかもその評価結果も（当然）悪いような無駄足な研究を学生にさせるのは，先生がちょっとひどいと思う…．
面白いと思ったのは，文化的なバイアスが影響することで，国ごとにカテゴリのリンク構造が違うという分析で，提示された例も面白かった．これを何らかの有効な結果に結びつけられないだろうか…？
最後に質問しようと思ってできなかったのが，「英語と日本語でデータ量がかなり違うが，それが実際の分析にどの程度影響しているのか？」ということ．我々が?pen Directoryのデータを扱った時に，英語版はデータが沢山あるのでそのまま表示すればよいのに，日本語版はデータが少なく重要なWebサイトが大幅に欠落しているので，自動的にWebサイトとその説明文を補うシステムを構築した．今回の参加者でも，英語版だったらデータが充分に多くてやらなくて済むことがあったかもしれない．
今回話を聞いていて難しいと思ったのは，データのリリースの難しさ．結局カパー率重視と精度重視などの異なる要求があり，どんなにがんばっても自動的な手法で大幅に精度や再現率などの性能をまったく問題にならないレベルまで上げることはできないようだ．自然言語系の人達だから，データとして独立した形でリリースすることを考えてしまうようだが，今後は（整理された）データ＋ライブラリという形でリリースすることも考えてもよいのでは…と思ってしまった．要するに，?ikipediaのデータを圧縮された標準化形式に変換できるのなら，あとはカパー率重視・精度重視などの特性に応じてパラメータを指定して使うとか，ライブラリを新しいものに入れ替えれば性能が向上するとかできるかもしれない．