Live Searchの変更

次の記事を見ていたら,ちょっと興味深かったので,書き留めておく.
MS、「Live Search」の機能強化点を説明。日本語処理の精度向上も紹介Broadband Watch

検索結果のランキングでは、ドキュメントを重視したニューラルネット技術を活用するとともに、トレーニングデータからの学習を実施。

これ前からやっていた奴だと思うけど,実は実際にどのような情報をどう学習させているか理解してない…MS Researchの論文を探せばあるか?最近某学会で,この関係の招待講演があったので,行けばよかったかな….関連文献を知っている人は教えて欲しい.

日本語処理面では、検索キーワードを単語単位に区切っていく必要があるが、2006年秋頃までは区切る精度が低かったという。中島氏によれば、現在では区切りミスが33%減少し、「単語検索という面では競合他社と同等か、それ以上ではないか」と語った。

日本語形態素解析がイマイチだったようだが,まあさもありなん…というか,天下のMSが今までそんないい加減だったんかい!という点で驚き(苦笑).で,一番気になったのがこれ.

中島氏は、日本で展開する検索サービスの精度について「我々はYahoo! JAPANが1番だと考えている」とコメント。また、2007年10月時点でLive Searchの検索精度がGoogleを若干上回っているとの考えを示した。中島氏は、YouTubeWikipediaが上位に表示されやすい点などが、マイクロソフトが実施した測定作業において、評価が伸びなかった原因となったと説明した。

検索精度と一口に言っても,実際の評価指標によって違いが出てくるが,これは大きくでたなという感じ(笑)実際に使ってみると,Live Searchはオフィシャルサイトが最上位に出にくい傾向があったり,クエリを形態素解析してからストップワードを勝手に除去しているらしい.たとえば「松の屋」で検索すると松屋が上位に出てくる(笑).もちろん,二重引用符で囲めば大丈夫だが,一般ユーザにそれを期待するのは無理だと思う.それに索引サイズもかなり小さい気がするが,この記事って今のLive Search日本語版のことを言っているのだろうか???GoogleYahoo! Japanと比べると,相当イマイチ感が漂っている上に,広告が非常に煩いんだけど….
ただ,彼らとしてはGoogleのようにオフィシャルサイトとかが強くブーストされるのではなく,Yahoo! Japanのようにもっと温和な方向を目指しているのかもしれない.
ところで,以前にT田准教授のブログでも話題になったのだが,今のGoogleは言語に応じたランキングの違いがかなりあり,たとえば海外のサイトを検索したくても,UIを日本語にしていると,肝心のサイトのランキングがかなり低くなってしまうことがある.自分で複数のURLを切り替えればいいのだが,それはめんどくさいし,Webブラウザの検索窓が使えなくなってしまう.そこで,検索結果で優先する言語をUIから切り替えられる機能が欲しいと思っている…というか,これって大学の先生や企業人はみんな欲しいよね?すべての言語を選択できるようにするのも煩雑なので,「ウェブ全体から検索」,「日本語のページを検索」に,設定で補助言語として英語を指定した場合に「英語のページを検索」が使えるというのが現実的で容易な解だと思うが,実装してくれないかなあ?>Googleの中の人