ビッグデータの衝撃
1章まとめ
- ビッグデータの狭義の定義は、既存の一般的な技術では管理するのが困難な大量のデータ群
- 管理が困難になる要因は、3V(volume,variety,velocity)
- 広義では3Vの面で管理が困難なデータ、および、それらを蓄積、処理、分析するための技術、さらにそれらのデータを分析し、有用な意味や洞察を引き出せる人材や組織を含む包括的な概念、と定義
- 大量のデータを分析し、そこから知見を得ようとする取り組みは、研究機関や大企業の一部では以前から存在
- 従来との違いは大きく3つある
- 一つ目はソーシャルメディアやセンサーネットワークなどの進展によって、大量かつ多様なデータが身近なところから生み出されるようになった
- 二つ目は、ハードウェアやソフトウェア技術の進展により、データの蓄積、処理コストが大幅に低下
- 三つ目はクラウドの台頭によって、必ずしも自前でビッグデータの蓄積、処理環境を用意する必要がなくなった
- 顧客と自社とのインタラクションデータを分析することで、トランザクションが発生した背景情報が見えてくる
- これまではウェブ上のインタラクションデータの収集、分析が先行してきたが、今後はオンライン、さらにはO2O(Online 2 Offline)のインタラクションデータの分析が重要
2章まとめ
- 現在ビッグデータブームを技術面で支えているのが、オープンソースの分散処理フレームワークであるHadoop
- 大手ベンダーのデータウェアハウス製品もHadoopとの連携を強化
- Hadoopは膨大な量の非構造データのバッチ処理に大きな効果を発揮する一方で、まだまだ発展途上の技術であることも忘れてはならない
- オープンソース版Hadoopの弱点を補完するため、クラウデラを中心にMapRやホートンワークスなど複数のディストリビューションの提供が始まっている
- HadoopやNoSQLデータベースは既存のリレーショナルデータベースやSQLなどのデータ処理技術では効率よく処理するのが難しい非構造化データのためにグーグルやアマゾン、Facebookなどの企業が必要に迫られて開発した技術
- このため既存技術を無理に置き換える必要はなく、売上データや顧客データといった構造化データの処理や蓄積には、従来からのリレーショナルデータベースやデータウェアハウスを使えばよい
- HadoopやNoSQLデータベースはオープンソースであるため、商用ソフトウェアに比べ、ライセンスコストは安価であるが、スキルを有する人材の獲得コストは高くつく可能性が高い
- 次々と流れてくる大量のデータ(ストリームデータ)をリアルタイムに処理するストリームデータ処理技術はこれまでも金融業界を中心に活用されてきた
- 最近では、NoSQLデータベース同様、ウェブ系企業が必要に迫られて、自ら開発するケースが増えてきている
- ビッグデータから有用な意味やパターンを効率よく発見するためには、機械学習やデータマイニング、セマンティック検索、統計解析などの技術が重要
3章まとめ
- イーベイやジンガなどネットサービス企業にとって、自社のサービスをどれだけ長時間使い続けてもらえるかが勝敗を分ける
- そのため、彼らはサイト内のリンクの配置や配色など一つひとつに気を配り、使いづらいと思われる点を徹底的に排除することに余念がない
- 仮に数パーセントでも離脱するユーザーが減れば母数が大きいので売上に大きな影響を与える
- そのため、サイト上でのユーザーの行動履歴のすべてをトラッキングし、データとして収集している
- 特にジンガの場合、最初の数クリックが鍵を握ると考え、3クリックルールでサービスを運営している点は興味深い
- また、ユーザーのアクセスログを100%蓄積することで、サイト上でのテスト効率が飛躍的に向上したというイーベイのコメントも大いに参考になる
- サンプルデータではなく全データを蓄積するため、必然的にデータ量は膨大になるがHadoopやアナリティックデータベースなどに積極的に投資することで、この点をクリアしている
- セントリカの事例からは、各家庭に設置したスマートメーターのデータから、まず顧客のエネルギー消費パターンを把握し、そこから、将来の消費動向の予想をするという点が震災後の電力不足に悩まされている日本にとって大いに参考になる
- また、電力事業者側だけでなく、同地区の同じような建物に住む他世帯と使用量を比較し、自分のエネルギー使用量が効率的なのかどうかをチェックできる、というように消費者側にもメリットがあるツールを提供している点も重要
- スマートメーターの設置にあたっては、各家庭の電力使用パターンから、生活習慣が露わになってしまうといったプライバシー問題も一部では指摘されている
- しかし、プライバシー問題は消費者がそれを補ってあまりあるメリットを享受できれば、容認されるケースも多い
- そのため、このようなメリットをいかに多く訴求できるかがポイントになってくるだろう
- カタリナマーケティングの事例は、アマゾンがウェブ上で実現している購買履歴に応じた商品のレコメンデーションをリアルの店舗で実現していると考えればコンセプトは近い
- しかし、アマゾンの場合は商品自体の中身はいっさい考慮せず、他のユーザーとの好みの類似性からお勧めの商品が導き出されるのに対して、カタリナマーケティングの場合は、商品の中身や顧客の嗜好までも考慮して、クーポンを発券しているという点で違いがある
- もう一つ学ぶべき点は、同社がメーカーやスーパーマーケットチェーンと消費者の間を仲介する中間事業者である点だ
- スーパーマーケットチェーンが直接、消費者にクーポンを、発券することもあるが、それでは収集できるデータに限界がある
- カタリナマーケティングは中間事業者である利点を生かし、複数のスーパーマーケットチェーンから消費者のデータを収集、分析し、より多くの消費者にリーチできる
- カタリナマーケティングに依頼すれば、米国の全スーパーマーケットの顧客の75%にリーチできるというのは、同社の顧客となる消費財メーカーや食品メーカーにとって、大きな魅力となっている
4章まとめ
- ウェブ系企業以外のビッグデータ活用のエッセンスはコマツのコムトラックスに集約される
- 特にデータからどういった洞察を得るか、という点で見た場合の発想の豊かさは特筆に値する
- 簡単に真似できるものではないが、固定観念に縛られず、データ活用を検討する企業には大いに参考になる
- リクルートの事例では、各サービスにおける先進的なHadoopの活用もさることながら、インフラ基盤のメンバーとマーケティング、分析のメンバーが同一部署の所属という組織体制に注目したい
- バッチ処理時間の短縮という教科書的なHadoopのメリットだけでなく、高速処理ができるがゆえに、何度でも要件を変更し、トライ&エラーがくりかえせる、サンプリングに頼らないロングテール部の解析が可能、開発サイクルの短縮、といったリクルートが考えるHadoopの真価はHadoopの活用を今後考えるすべての企業が念頭に置いておきたいポイントだ
- 一個人のセンスよりも数千万のデータを信じるグリーにおいては、すべてにおいてデータに基づく説明責任が求められるため、サービスの設計、かいはつだんかいから必要なログデータを収集できるようにしている
- 一見地味な作業であるが、重要なポイントである
- 一日あたり数テラバイトにも達するデータが翌日には分析が終わり、可視化された状態にある、に代表されるビジネスのスピード感とそれを支えるグリーのチーム体制は、リクルート同様、参考になる
- マクドナルドのようにワントゥワンマーケティングを行おうとする企業は、ますは顧客の行動履歴や購買履歴データの収集が必要となる
- 収集漏れをなくし、顧客の全購買行動を把握するには、当面、携帯電話やスマホの活用が有効な手段
5章まとめ
- ビッグデータの活用パターンは個別最適バッチ型、個別最適リアルタイム型、全体最適バッチ型、全体最適リアルタイム型の四つに分類できる
- ビッグデータの活用レベルとして、過去現状の把握、パターンの発見、予測、最適化の四レベルがある
- ただし、サービスによっては、必ずしも最終ゴールが最適化にならないケースもある
- ビッグデータ活用の真価は、ボリューム、バラエティ、ベロシティという特性を持つビッグデータをうまくビジネスに取り込んでいくことにである
- 特に、従来活用してこなかったデータや取得さえできなかった新規データの活用に大きなビジネスチャンスがある
6章まとめ
- ウェブ上のユーザーの個人情報、行動履歴などを収集し、ユーザーの許可なく広告事業者など第三者に転売しようとする事業者が後を絶たないことから、米国およびEUではウェブ上の行動履歴の収集を巡り、議論が活発になっている
- 米国では、ウェブ上の行動トラッキングについて、ユーザーがブラウザの設定で一律拒否できる手段を提供するDoNotTrack制度が提案されている
- 長らくオンライン広告事業者などの反対に遭い、前に進まなかったが、2012年2月23日にオバマ政権が、Consumer Privacy Bill of Rightsを発表したのを契機にようやく産業界の賛同が得られた
- EUではSNSやクラウドなどの 新しいインターネットサービスに対応するため、EUデータ保護指令の見直しを実施しており、2012年1月末に草案が発行された
- EUでは米国とは対照的にユーザーのめいかくな同意なしに、個人データを処理してはならない、というオプトイン形式での対応が求められるようになっており、オンライン広告業界などが猛烈に反対している
- 日本においては、個人情報保護法と同時に電気通信事業における個人情報保護に関するガイドライン、国土交通省管轄分野における個人情報保護に関するガイドライン、など各事業分野のガイドラインを参照する必要がある
- 政府では、経済産業省や総務省が中心となり、プライバシーや個人情報の保護を十分に確保しつつ、行動履歴、閲覧履歴など個人に関する情報を有効に活用したパーソナライズサービスを実現するための方策が検討されている
- ビッグデータとプライバシーの観点で議論が進んでいるのは、現時点では、ウェブ上の個人情報、行動履歴を対象としたものがほとんどである
- しかし、オンラインでの行動トラッキングを可能とする技術の登場により、今後はおんら、さらにはO2Oなどを対象とした議論が活発になる可能性がある
- ビッグデータをビジネスに活用するためには、プライバシー問題は不可避
- 一度でもその対応を誤れば、企業の信用は大きく失墜し、場合によっては、サービスからの撤退に追い込まれることもあるだろう
- 過度に気にする必要はないが、利用者への配慮に欠けたサービスがユーザーの支持を得ることは難しいことは肝に銘じておく必要がある
- 個人情報や個人に関する情報を扱う事業者は、あらかじめ利用目的を特定した上で、利用者の同意をとる、利用目的を変更する場合は、わかりやすく通知する、といった透明性の確保が今後ますます求められるようになるだろう
- ポイントとなるのは、いかに利用者にとってのメリットを訴求できるかである
- 事業者側だけのメリットであれば、利用者の理解を得るのは困難
- 反対に利用者にとって多くのメリットがあるなら、利用者の同意を得るためのハードルは下がるだろう
7章まとめ
- wwwの父ティムバーナーズリーが提唱したデータをオープンにし、皆でつなげて社会全体で大きな価値を生み出すために共有しようとする取り組みは、LOD(Link Open Data)と呼ばれる
- LOD活動は、積極的な政府情報の公開や行政への市民参加を促進するオープンガバメントへとつながり、米国連邦政府を筆頭に世界各国の政府に広がっている
- 米国では、政府がLOD形式で無償公開しているデータを活用して、新たなビジネスを開始するベンチャーが次々と誕生している
- 民間企業も健全なデータの流通を促し、データのワンストップショッピングができるデータマーケットプレイスを開設している
- データマーケットプレイス間の相互運用性が課題だが、将来的にはLODとの融合が図られる可能性がある
8章まとめ
- ビッグデータ活用のための戦略的フレームワークをもとに、社内データだけでなく、社外データにも目を向けることが大切
- 外部のデータを使う、買う、社内のデータを売ることも含めた広い視野が必要
- オリジナルデータを持つ企業はビッグデータ時代の勝者となれる可能性が高い
- まずは自社のオリジナルデータを見つけ出し、さらに外部データとの掛け合わせでプレミアムデータへと昇華させることを検討したい
- ベンダーの新たなビジネス機会はデータアグリゲーターである
- データが生まれるあらゆる業界にデータアグリゲーターとなるチャンスがある
- ビッグデータ時代に有望な職種は統計解析や機械学習、分散処理技術などを用いて、大量のデータからビジネス上意味のある洞察を引き出し、意思決定者にわかりやすく伝えたり、データを用いた新たなサービスを作り出せるデータサイエンティストである
- 日本でもデータサイエンティストの獲得競争が始まろうとしている
- ユーザー企業への供給を想定して大手ITベンダーが社内育成、M&Aで頭数を揃え始めた一方で先を行くユーザー企業は高いスキルを持つ外国人の採用を開始している
- 最後に課題となるのは、データ分析の結果、得られた洞察をてきかくな意思決定や迅速なアクションに結び付けられる組織体制、企業風土である