Teaching a Computer to Understand Japanese

Google音声検索についての紹介.日本人技術者にとってはすでに当たり前になっていることが,改めて問題点として語られていて新鮮で面白い.
Teaching a Computer to Understand JapaneseOfficial Google Research Blog)
今音声検索で気になるのは,次のような点か.

  • 一度でうまく認識されていない単語は,多くの場合は何度繰り返してもうまく認識されない.統計情報が不十分な場合は何度やってもダメなので,さくっと諦めて通常入力で修正した方がよいということ?
  • スペースが入りすぎる気がする.たとえば,JR東海道線に「新蒲原」(sacasakasakaさんのような一部の特別な人は気になる駅名(笑))というあまり有名ではない駅があるのだが,どんなにがんばって発音しても「新 蒲原」とスペースが入れられてしまう.未知語扱いなのか?
  • コンテキストを認識・分離していないので,JR東海道線の「草薙」という駅は,「草なぎ」のようにSMAP化(笑)してしまう.「…から…」で路線・終電検索と認識したら,後は駅名専用の辞書を使って欲しい.
  • 今のインプットメソッドは同じ変換が続けておこなわれたら誤変換だと認識して,一番上に出す候補を入れ替えるような気がする(本当?)のだが,同様に扱っているのか,同じ音声検索を繰り返すと,最初は正しく認識されていた駅名のかな漢字変換結果がムチャクチャになることがある.路線・終電検索は,常に二つの駅名を指定するからだろうけど,ちょっとこの問題は根深いかなあ….