ビッグデータというバズワードとHadoop技術者の悩み

金融業界、それも銀行担当でSEなんてやっていると中々Hadoopみたいな技術に触れる機会もないんだけど、そうはいっても無視できないキーワードになって来ているビッグデータとともに、基礎は理解しないとなーと思って色々調べたりやってみたりする、というのが僕のお仕事の一つではあるんですが…

さて、ノーチラスの人のインタビュー記事が面白い。

最終的には、ビッグデータという言葉は消え、分散処理を効率化するHadoopのメリットと事例だけが残るというのが神林氏の予想。そうなったときにビッグデータの海から、ノーチラスが再浮上するのかもしれない。

ASCII.jp:“統計の基礎を無視している”Hadoop使いが考えるビッグデータ|百家争鳴!ビッグデータの価値を探る

おいおい、ノーチラス沈んじゃってるよww

この結びの一節は置いといて、内容はわりと派手な言葉で否定的な見解を熱く語っているかのような記事なんだけど…

ノーチラスの中の人が当件についてこのように語っております。

こういう塩梅になった。これでも一応、最初に上がってきたインタビュー記事を訂正して、この状態という感じです。最初のほうはもっと派手だった。まー、さすがに読み手で不快に感じる人もいるだろうし、とはいえ、話したことをつないでいる部分は確かにあるわけで、はてどうしたものかな・・・と思っているうちにリリースになったというのが実態ですね。

Hadoopは統計の基礎を無視しているのか? - 急がば回れ、選ぶなら近道

大意についてはまあ納得。語感の問題はまーどうでもいいんじゃないwってのが僕の印象ではありますが。ビッグデータという言葉が本質を表しきれていない(というか誤解をまねき過ぎる)というところはありますが。

僕みたいな業務屋さんにしてみると、Hadoopってのは分散処理のブレークスルーでしかなくて、それだけだとどうにもこうにもならない。分析系でもない限り、サンプリングしてどうこうという業務は存在しないだろう。統計の基礎知識を持ったSEなど数えられるほどもいない(つまりいない)。大体において「文系でもできます!」ってのが業務系SEの学生に対する売りなわけで、実は統計が必要でしたとか言ったらどうなってしまうことやら。
(だからこそ、文学部出身のくせに数学も統計もある程度できる僕みたいな技術者が重用されるわけだけどね)。

少し気になった点を。

いまの論調は「単純に全件集計ができるようになったので、今まで見えない傾向が見えるようになりました」というコンテクストも目立つのも事実です。これは違いますよ、ということです。

Hadoopは統計の基礎を無視しているのか? - 急がば回れ、選ぶなら近道

全件集計、というのはともかく、結果として扱えるデータ量が増えたことによる利点は母集団(件数・期間など)を大きく取れるようになったってことではあるようなあと思うわけですね。特に推移の傾向を見るような場合には期間という横軸のデータ量が増えて、それはサンプリング解析しづらいかなと思ったりもする。

で、ざっくりと感想なんだけど、HadoopがBIで有効に使われているか、というとそうでもないよね、というのには同感。分散処理の新たなフレームワークとしてバッチ処理に使うという考え方も方向性としてはあってると思う。実際に自分の仕事での活用事例を想像してみると、集計系の重たいバッチ処理の代替くらいしか思い浮かばない。

じゃあ、ビッグデータは単なるバズワードか、というところは難しい。一昔前はクラウドもそう言われていたけど、今では一つの概念としてある程度ちゃんとした形で定着していると思う。ビッグデータってのが「分析できるからなんでもとっとこうぜ!」みたいなニュアンスになるとディスクベンダーはウハウハなんだろうけど、本当にそれって意味あるデータなんだろうか、という点はどんどんおざなりになっていく危険性がある。いくら処理が早くなってディスクが安くなるからといっても、設計段階で不要なものまでなんでも取り込んでしまうというのはある意味大富豪プログラミングに対する批判と同種の批判ができるだろう。

だから、ビッグデータ

  • 今までできなかったことができる → なぜできなかったか?必要がないからしなかった、ではないのか
  • 新しいデータの活用 → そのデータはほんとうに必要なの?

などの問にきちんと答えながら活用方法を考えないといけないんだと思う。いくつかの事例、例えばSUICAで買える自販のデータを元に商品開発しました!みたいなのははっきりいって業界の広告みたいなもの(なぜなら発売前にヒット確実みたいな宣伝をしていたから)で、実際にデータを分析して開発した結果なのか、広告の成果なのかすらわかったもんじゃないわけで。

クラウドは基盤系技術だったこともあって、無事落ち着くポジションに落ち着いたと思う。一方で、ビッグデータはデータ活用側のワードだし、Hadoopは本質的には基盤系技術そのもののことだし、それを変につなぎあわせてあれができますこれができます的な話で商品化していくってのも乱暴な話だし、危険だよなって。

1年間くらいHadoopを見てきた結論としては、これは単に基盤技術だ、と捉えるべきだと思う。一方で、ビッグデータって言葉はもう少ししないと定義が曖昧なままだろうな。多分、最初に登場したときの言葉では乗っかれない人たちが言葉の定義を拡張し、これもアレもビックデータだと言い出しているんじゃないかと思ってる。流行の言葉はそんなものだ。単なるデータセンターを「これも見方によってはクラウド」と言い放った人もいたくらいだし。
なので、ビッグデータが真の姿を見せるのはあと2年先かな。