某フォーラム二日目

クラウドコンピューティングの特別セッションで記憶に残ったのは,クラウドコンピューティングのデータベースは,基本的にキー・バリューの組で検索するタイプが多いこと.仕事の性質からSQLデータベースの必要がなくて使ってこなかったので,SQL文の夢も見ないし,スキーマって何?という感じで,まさに石器時代人だとコンプレックスを感じてきたが,これで私も時代の最先端である(嘘)また,Gf*rmの話の時に質問したが,やはりMapReduce & GFSのように細粒度並列プログラムを書く場合には,あらかじめ自分でデータを小さいサイズのファイルに分割するという対処法しかないようである(GFSはファイルはチャンクの集合である).やはりこれは現在使われている分野のような,もう少し粗粒度の並列プログラム向けのファイルシステムであろう.
ユーザ発信型メディアの特別セッションのPodCastleの話では,ユーザが認識結果を修正してくれるという話で,資料を見ると1ポッドキャストに対して1000件!も修正していたので質問したところ,残念ながら現時点では修正を学習して反映するサイクルが一日以上掛かってしまうそうで,同じコンセプトの某翻訳システムのように即座に反映できないために修正内容にかなりの重複があるようだ.それでも修正してくれるのは,やはりアイドル声優だからであろう.ファンのパワー恐るべし!ニコニコ動画については,まだ発表前でここで講演内容は言及できない.ただ今後研究用データとして,まずタグデータから公開する計画はあるらしい.T田准教授にも聞いてみたが,タグは一見便利そうだけど実際には扱いが難しく,SBMでもタグをテキストとして有意味・有意義な活用できた例はまだない(研究自体は非常に沢山ある.確かタグは扱うのが難しいと結論づけている論文もあった気が…)ので,データがあってもすぐ良い結果を得るのは難しいかもしれない.これは,タグを命名する際のコンテキストが多様すぎるのが原因だと思っている.だから良い切り口を見つけたら凄いだろう.
また古典的な適合フィードバックとクエリ拡張にユーザの検索結果のクリック履歴を使うという発表の際の質疑応答が興味深かった.それでは,ある一つのコンテキストの際の検索精度が向上すると言っているのだが,多くの研究者からは情報探索性を劣化させるので逆効果だと指摘されていた.つまり,言葉の多様性に対応するために内部的にクエリ拡張をおこない,情報探索性を向上させるためにユーザの検索履歴から求めた拡張されたクエリのリンクを複数提示するというのが今のトレンドであり,適合フィードバックでは今の多様な検索要求に答えられないということなのだろう.しかし,それでも彼らがやったように数値的な検索精度を上げることはできるわけで,そこに現実の有用性と,数値的な性能の乖離が起こってくる.まさに,「木を見て森を見ず」なのかもしれない.