某カンファレンス - かふぇ・べいぶ別館

H*doopのカンファレンスで豊洲に．アナウンスのメールを見て申し込んでから上司と交渉したのだが，案の定4時間程度で閉め切られたらしい．以下はメモ．

サービスのログデータを大量に抱えた企業（？ィー・エヌ・エー，？イバーエージェント，？クルート）などの企業が，ログデータなどの分析のために社内でどのように活用しているかがよくわかった．もうサービス運用会社では，コモディティ化しつつあるのではないか．ただし，機密保持のために細かい内容は説明できないのは，よくある話（爆）
H*doop導入の一つの目安が一日のログデータを何時間で処理できるかだが，数時間を目安にしているところが多いように感じた．以前は大量のデータを抱えた企業はおざなりの分析でお茶を濁さざるをえなかったのだが，こうなってくるとログ分析が非常に重要な企業戦略となってくるし，新しい世界が開けてくる．
H*doopが一番適している用途はワーカ間で情報を共有しない並列分散処理だが，大規模機械学習にどのように適用するかという説明が興味深かった．ただ，やっぱり真面目にやっているのはG社のようだ．
D社のマルチユーザ環境の問題点の分析は非常に興味深い．「そもそもそう使うべきではない」という意見も散見されたが，それはサービス運用とその分析を企業の重要な戦略として組み入れようとしているか，一部のエンジニアの趣味的・ボランティア的な仕事に留まるのかの視点の違いだろう．
？クルートは，H*doopで処理したデータの解析処理をビジュアルプログラミングでできるようにしている．これに対しても「ビジュアルプログラミングはそもそも駄目」という批判が多かった．もちろん，汎用プログラミングでは屍累々だが，統計解析の処理は限られている上に，すでにそのような商用ツール（今回の発表は同等の機能のOSSツール上に実装）を専門家が使っているという現実があるので，逆にそのような先入観にとらわれない良いアイデアだと思う．なお，？イバーエージェントはH?VEでS?Lで入力させるという対極的なアプローチなのが面白い．
個人的には，ちょうど企業が本格的に導入しているという，いいタイミングで参加したと思う．戦略的なログ分析の重要性が認識されると，現場の話は発表できなくなるし，技術的にもニッチな話になっていく気もする．