データマイニングが一過性のブームでない5+の理由
今日は表題のテーマで。
理由1.スマホの爆発的普及
インターネットは、テレビのように「点ける」ものじゃなくて、いつもそこにあるものになった。5W1Hのうちの4つ、すなわち、いつ(リアルタイム性)、どこで(位置情報)、なにを(ごまんとあるアプリ)、だれと(ソーシャル)、といった情報はユーザの負担がほぼゼロでデジタル化されることになった。そしてそのデータから、残る2つ、すなわち「どのように」と「なぜ」を探り出すニーズが生まれるのは当然である。それを可能にする技術、それはいうまでもなくデータマイニングである。
理由2.ソーシャル化(≒インターネットの「本番」)
インターネットはテレビと違い、ポイント・ツー・ポイントかつパケット多重であるところに特徴がある。つまり仕組みからして双方向、個人主体、マルチメディアを指向しているのだ。初期のインターネットはWebサイトを見る、それを探す、がメインで、いわば「チャンネルがめちゃくちゃいっぱいあるテレビ(あるいは雑誌・新聞)」のようなものだった。それがブログの登場で「個人主体」がキャズムを越え、ソーシャル化により「双方向性」がキャズムを越えた。(残るマルチメディア化、それはたぶん動画のことだろうが、はこの先数年で開花するだろう。)
個人主体と双方向性をあわせたものがソーシャル化だ。情報交換がフォーマルからカジュアルへ移行する、それがソーシャル化だ。日常的なコミュニケーションの様相を俯瞰する視座、それがソーシャル化だ。つまりソーシャル化によって、いよいよインターネットの「本番」が始まったのだ。
インターネットとデータマイニングの関連がずっと認識されていたにも関わらずデータマイニングが今ほど叫ばれていなかったのは、インターネットの本番がまだ始まってなかったからなのだ。よってこれからがインターネットの本番である以上、データマイニングがブームに終わることは無いのだ。
理由3.CPUのマルチコア化
CPUはクロック周波数による性能向上の限界に突き当たり、マルチコア化へと舵を切った。これはソフトウェアからみるとデータ処理の局在性を意識せざるを得なくなったということを意味する。性能の良いソフトウェアを書くには、データ分割と転送のタイミングを上手く設計する必要があるわけだ。逆に言えば、そうすることが容易な分野のソフトウェアは、マルチコアCPUの性能を十分に引き出すことができるのである。
データ分割と転送タイミングが設計の本質となるような分野とはなにか。それは統計やデータ分析に他ならない。データマイニングの各手法は、局所的な処理と大域的な処理のすみ分けにそのバリエーションの本質がある。マルチコアを引き出すようにソフトウェアを設計することは、効率的なデータ分析手順を考えることと恐ろしく類似しているのだ。
したがってCPUのマルチコア化が進行して一般的に使われるようになったことと、ソフトウェア開発においてデータマイニングの重要性が叫ばれ始めたことには密接な関係があるのだ。そして今後さらにマルチコア化からメニーコア化へと進行するかもしれない状況を鑑みれば、データマイニングの重要性はますます強まるばかりだとしか考えられない。
理由4.クラウド化
インターネット上のサービスは、分散アーキテクチャで実現されている。つけたりはずしたりできることがアーキテクチャの特徴なわけだ。よってサーバ機器も、つけたりはずしたり増やしたり減らしたりできるように進化するのは当然である。それがクラウド化をもたらした。つけたりはずしたりするようなインフラで課題となることの一つは、蓄積したデータをどう管理するかである。CPU、メモリ、といったリソースは替えがいくらでも効く。しかしデータそのものは、替えが効かない。
昨今の様々なBigData用のプラットフォームの登場にはそういう理由があるのだ。そしてそれらはデータの保管を容易にはしてくれる。しかしそもそもデータの整理のほうが重要なのだ。要るデータと要らないデータにちゃんと分けたり、要る部分を抜き出したり、さらにはデータを要約したり、そういうデータの整理が上手く行えれば、管理負担は大きく低減する。それに必要な技術、それこそがデータマイニングである。クラウド化がスムーズに進行するために、大量データの管理負担低減とアクセシビリティ向上は不可欠であり、そのためにデータマイニングは必須の技術なのだ。
クラウド化が確実に進行するITインフラのパラダイムシフトである以上、データマイニングも一過性のブームで終わることはないのだ。
理由5.地球温暖化
「地球温暖化が進行している」という命題はIPCCという国際的な調査機関のお墨付きもあって世界共通に認識された事実となった。温暖化対策には人々の生活や産業をエコ化する必要がある。エコを実現するには、一人ひとりの意識を変えることも大切ではある。しかし人間がそんな苦労をしなくても、いたるところに存在する機械を「スマート」にするほうが楽だし、そうしたいのが人情というものだ。
機械のスマート化には何が必要か。もちろんデータである。事実に基づいて適切な判断を下せること、それを人は「賢さ」と呼ぶ。事実はデータに含まれている。よってデータから事実を適切に浮かび上がらせることが、適切な判断には不可欠なのだ。それを行う技術こそがデータマイニングである。よって地球温暖化に産業界が応答し始めたことと、データマイニングの必要性が訴えられていることには深いつながりがあるのだ。