VNEXTの会社紹介資料
2023/12/07
近年、「ビッグデータ」という言葉を頻繁に聞くことがあるのではないでしょうか?
ビッグデータとは、簡単に言うと「人間では全体を把握することが難しい巨大なデータ群のこと」です。
このビッグデータを分析することで、ビジネスにおいて有用な知見を見つけ出すことが可能です。
本記事では、ビッグデータに関する基礎知識からビッグデータの分析手法などについて詳しく解説していきます。
目次
|ビッグデータとは?
ビッグデータ(Big Data)とは、文字どおり「大規模なデータ」のことです。
そのデータの中には、テキスト・画像・動画・音声などのさまざまな種類・形式のデータが存在し、事前に定義された形式で保存されていない
非構造化データや非定型的データを含みます。
ビッグデータの定義は明確にはされていませんが、総務省は『平成29年版 情報通信白書』において、個人と企業と政府が生み出すビッグデータの
構成要素を大きく3つに分類しています。
【総務省によるビッグデータの解釈】
◆ オープンデータ:国や地方公共団体が提供するデータ ◆ 産業データ:企業が保有する幅広いノウハウなどのデータと、M2Mと呼ばれる産業用機械の機器間通信時のデータ ◆ パーソナルデータ:個人の属性情報や移動・行動・購買履歴などの個人情報を含むデータ |
下記は、総務省が発表した『ビッグデータの活用に関するアドホックグループの検討状況』の資料内にある「ビッグデータを構成する各種データ
(例)」で言及されている、ビッグデータの具体例となります。
◆ Webサイトデータ:ECサイトやブログで収集される行動履歴や購買履歴など ◆ ソーシャルメディアデータ:SNS上で書き込まれるコメントや利用者のプロフィールなど ◆ マルチメディアデータ:インターネット上で公開・配信されている動画や音声、画像など ◆ カスタマーデータ:CRMシステムで管理する販促データや会員データなど ◆ オペレーションデータ:業務システムで生成されるPOSデータや取引明細データなど ◆ オフィスデータ:オフィスで作成される文書データやメール、社内ツールデータなど ◆ ログデータ:サーバーに蓄積されるアクセスログやエラーログ、通信記録など ◆ センサーデータ:GPSやRFIDなどで、検知される位置情報や加速度、温度など |
これらのビッグデータを収集・蓄積・分析することで、さまざまな知見を生み出します。
活用範囲が幅広いため、あらゆる分野・業界でビッグデータの利活用が期待されています。
また、IDC社の調査によると、全世界のデータ量は年々急激に増加し、2025年には163ゼタバイト(1ゼタは1兆の10億倍)になると予想されています。
ビッグデータ分析の需要は、今後ますます拡大していくでしょう。
|5つのV
ビッグデータをわかりやすく表現する概念として、「3つのV」という考え方があります。
《 3つのV 》
・Volume(量)
・Variety(種類)
・Velocity(速度)
つまり、「膨大な量で、多様性に富んでおり、高速で処理できる」ことがビッグデータと呼ぶための条件といえます。
さらに、現在では新たに 2 つの「V」を加えて「5つのV」とする考え方が浸透してきています。
その 2 つの V とは Value(価値)と Veracity(正確さ)です。
データが価値を有している、もしくは何かしらの価値を生み出せること、そしてデータの正確性も、ビッグデータを表す重要な要素といわれるように
なっています。
この2つの考え方が加わったことにより、ビッグデータは以下の「5つのV」が条件になりつつあります。
《 5つのV 》
・Volume(量)
・Variety(種類)
・Velocity(速度)
・Value(価値)
・Veracity(正確さ)
5つのVである、「膨大な量で、多様性に富んでおり、高速で処理できる上、価値があって、正確性を有している」を意識することで、ビッグデータの
特徴を大まかに把握することができるでしょう。
|ビッグデータと普通のデータの違い
ビッグデータは、従来からある普通のデータとどのような違いがあるのでしょうか?
ビッグデータという概念が生まれる前から存在する従来型のデータは、コンピューターやシステム間でやり取りできるよう決まった形式と構造である
「構造化データ」と呼ばれています。
一方、ビッグデータについては5つのVの「Variety(種類)」があるように、形式が定まらない非構造化データを中心に構成されています。
また、「Volume(量)」という言葉が示すように、従来のデータよりも圧倒的な量になることもビッグデータの特徴といえるでしょう。
|ビッグデータの分析手法
ビッグデータの分析手法について、代表的な6つの手法をご紹介します。
|クロス集計
クロス集計は、データを属性ごとに分け、その属性の傾向を把握する分析手法です。
クロス集計を用いることで、属性ごとの傾向やニーズが分かります。
アンケートを通じて2つ以上の質問を投げかけ、その回答結果から回答者の属性ごとの傾向を判断するものが例として挙げられます。
マーケティング分野では、顧客を居住地や年齢・性別などの属性に従って分け、それぞれのニーズを把握するのに使われます。
クロス集計には統計学の専門知識が不要であり、Excelなどで簡単に行えるため、ビッグデータ分析の中では比較的活用しやすい手法と言えるでしょう。
|クラスター分析
クラスター分析とは、データを分類し、その集団ごとの特徴を分析する手法のことです。
「クラスター(Cluster)」は「集団」を意味します。つまり、類似グループごとの傾向が分かります。
クロス集計では、年齢や性別のように明確な属性によってデータを分けますが、クラスター分析では類似性に基づいてグループ分けをします。
そして、各クラスターの特性を分析し、マーケティング施策やブランディングなどに活かします。
たとえば、アンケート結果や購買履歴に基づいて顧客を「流行への関心が強い」「こだわりがある」といった分類したとしましょう。
この場合、前者には新製品の情報を提供するメルマガを、後者には自社の厳選製品を紹介するメルマガを配信するといった施策が考えられます。
|アソシエーション分析
アソシエーション分析は、データ同士の相関性がわかる分析手法です。
データ同士の関係性は、人間が一目見ただけでは分からないことがありますが、アソシエーション分析ではそれを明らかにすることが可能です。
簡単に言うと、ビッグデータを分析対象として「AであればBだろう」という因果関係を見出すことです。
アソシエーション分析から派生した手法に「バスケット分析」があり、これはある商品と同時に買われやすい商品を見つけ出す手法です。
身近な例では、ECサイトでよく見られる「この商品を買った人はこちらの商品もチェックしています」といったレコメンドもアソシエーション分析を
利用しています。
|ロジスティック回帰分析
ロジスティック回帰分析は、ある結果に関連する要因が、結果に対してどの程度の影響があるのかを分析する手法です。
事象の発生確率を予測するため、分析の結果得られる答えは確率であるため、1(発生する)と0(発生しない)の間の数値となります。
マーケティング分野においては、ある商品が売れる確率を予測するのに使われています。
また、医療分野では、病気の発症率を予測するために用いられることが多いです。
|決定木分析
決定木分析とは、樹形図(ツリー)を作成して予測や判別、分類などをしていく分析のことです。
例として、一度のクロス集計で「商品Aは地域Xでよく売れる」ことが判明した場合を考えてみます。
この場合、地域Xで商品Aを販売すれば売れやすいと予測できますが、これだけではターゲットの設定などには不十分です。
そこで、ほかの要因を踏まえて、木が枝分かれしていくようにデータを細かく分けていくことで、各グループの特徴を把握でき、
「商品Aは地域Xの20代独身女性に売れやすい」など、ターゲットを絞り込めます。
|主成分分析
主成分分析は、複数の要因を持つデータを、一部の要因を排除することで単純化する分析手法です。
ビッグデータ分析においては、変数が多くなることによって分析が複雑になることがあります。
主成分分析は、分析対象とする変数をいくつかに絞ることで、分析そのものをシンプルにする手法です。
たとえば、アンケートである顧客から「流行に関心が強い」「新しいものが好き」「中古品は買わない」といった結果を得られたとしましょう。
これらを個別に扱うこともできますが、まとめて「新しいもの好き」とすれば分かりやすくなります。
このように、変数を集約することによって、従来は可視化が難しかった分析結果をグラフなどで表現することも可能になります。
これらの分析手法はExcelでもできますが、実際にビッグデータを分析する際は「BIツール」や「データマイニングツール」を使うことが一般的です。
BIツールはビジネス上の意思決定を支援する、データマイニングツールは分析をするという目的の違いはありますが、機能や特徴には共通点も多いです。
ビッグデータ分析を行う際は、データの利用目的を明確化し、ツールを選定しましょう。
|AIとビッグデータの関係性
ビッグデータと聞くと、「AI」を連想する人もいるのではないでしょうか?
今や、AIとビッグデータは、互いにとって必要な存在となりつつあります。
利用シーンにもよりますが、一般的にAIが高い精度で判断を行うためには、データによる学習が必要となります。
たとえば、AIが搭載された顔認証システムでは、まずAIに膨大な顔の画像データを読み込ませます。AIはこのたくさんの画像データから、顔の特性や
パターンなどを学び、個人の顔を判別することができるようになります。
このように、学習過程でデータの中から規則性・特徴を見つけられることや、その規則性や特徴を使ってデータについての判断を行えることなどが
ビッグデータの分析にも役立っているのです。
日々量産され続ける種類も形式も多様なビッグデータを効率良く分析するためには、AIの技術が必要です。
それと同じくAIにとっても、学習教材となるビッグデータは、より精度の高い判断を行うために欠かせない存在になっています。
|ビッグデータ分析を成功させるためのポイント
ここまで、ビッグデータの分析手法などを解説してきましたが、ビッグデータ分析を行う上で押さえておきたいポイントを4つご紹介します。
|データの利用目的を明確にする
ビッグデータ分析は、まず以下の根本的な部分を明確にする必要があります。
・何を目的として分析を行うのか
・分析結果からどのような知見を得たいのか
ビッグデータ分析で扱うデータは多種多様であるため、まずは目的に沿って、どのデータを対象に分析するのか決めなければなりません。
また、データの種類によって分析に適した手法を選択することも重要です。
|データを保管できる仕組みを整備する
近年は、ビッグデータ分析を行うことを前提としたDWH(データウェアハウス)というサービスが一般的になりつつあります。
DWHとは、ビッグデータ分析ができる形にデータを最適化した上で、安全に保管できる仕組みのことです。
また、多くのDWHには外部からの攻撃を防御する仕組みや、データの暗号化などセキュリティを向上させる機能が備わっています。
ビッグデータ分析で扱うデータは膨大です。
そのため、データを大量かつ安全に保管できる仕組みを整備することは必須と言えます。
|データクレンジングを行う
ビッグデータ分析で扱うデータには、そのままの状態では欠損やノイズが残っている場合があります。
また、形式も画像や音声などフォーマットが揃っていないケースもあると思います。
データに不備がある場合、そのままでは分析ができないため、データを適切な形に整える「データクレンジング」という作業が必要になります。
データクレンジングは、個々のデータを分析に適した形に整える工程であり、人手を介した作業が必要です。
効率的にビッグデータ分析を行うためには、データクレンジングのスキルを持った人材を一定数確保し、滞りなく作業が進められるような体制を
確保する必要があります。
|分析を繰り返す
ビッグデータ分析は、一度の分析だけで、有益な知見を得られることはあまりありません。
さまざまなデータを複数の分析手法で分析しましょう。
|ビッグデータ分析の活用事例
最後に、ビッグデータ分析をビジネスで活用している事例を5つご紹介します。
|ECサイトの改善
ECサイトには日々多数のユーザーが訪れ、商品購入の有無に関わらず、さまざまな履歴データを残していきます。
ECサイトのアクセス数を増やすためには、日々発生するデータを分析することで有効な知見を得る必要があります。
たとえば、ECサイトの訪問履歴と顧客情報を分析し、特定の年齢層や家族構成の顧客に対して集中的に広告を出すことで、アクセス数や購買率の
増加につなげたケースがあります。
ECサイトにおける顧客の訪問データには、今後のアクセス数増加や売上拡大につながる情報が眠っている可能性があります。
ビッグデータ分析によって、本来は活用しきれていなかったデータがサービスの新価値を生み出すかもしれません。
|MaaS分野での活用
鉄道や自動車といった交通手段の統合を図るMaaS(Mobility as a Service)においては、日々発生する移動データを対象に、ビッグデータ分析を
行うことで、さまざまな知見を得られます。
たとえば、都市において渋滞予測を行う際には、リアルタイムで発生する交通量の情報、各車両の移動データ、天候や工事の情報を総合的に分析する
ことで、より精度の高い予測を行えます。
|気象データを活用した天気予報精度の向上
ビッグデータ分析は、気象データを活用した天気予報精度の向上や販売予測を行うことも可能です。
ウェザーニュースでは、各国の気象データを購入してラインナップを拡充することで、精度の高い天気予報をしています。
たとえば、弁当屋がある町に雨が降り、野球の試合が中止になった場合を考えてみましょう。予想していた数の弁当が納品できず、廃棄が増えて
しまう問題があります。
しかし、天気が事前に分かれば弁当量を調整できるため、廃棄を防げる可能性が高まります。
このように、肌感ではなくデータに基づいて、在庫の最適化をしていくことが可能です。
参考:CX Clip_Data for Experience #5
|来客予測でムダを削減
三重県の観光地である伊勢神宮近くの食堂では、AIによってビッグデータを分析することで、来客人数や属性の予測ができるようになりました。
これまでは、従業員の経験・勘を判断基準とする経営体制で運営しており、この体制下では食材ロスや非効率な人員配置が発生していたことが
課題でした。
そこで、気象データや周辺ホテルの宿泊予測データなど200種超のオープンデータとレビューサイトのアクセス数や直近の来客数などの自社保有
データを分析し、来客の属性や人数を95%の精度で予測できるようになりました。
その結果、食材ロスを削減(廃棄ロス72.8%の削減に成功)や効率的な人員配置が可能となり、一人当たりの売上高が約3倍になった成果を
上げています。
この事例では、ビッグデータの分析結果に基づいて、食材の仕入れや人員配置を行えるようになり、年間の売り上げも約5倍になりました。
|需要予測で業務効率化
九州を中心に展開するホームセンターでは、ビッグデータの分析によって得られた需要予測に基づいた仕入れ業務を行っています。
課題としては、従業員の経験や勘に頼って仕入れ計画を策定・実施していたことや過剰な在庫や、それに伴う返送作業などの管理負担が発生して
いたことです。
そこで、カレンダーや気象データ、過去の売り上げデータ(店舗別、商品別)を分析したことで、データからの需要予測が実現できました。
ビッグデータを分析した結果、客観的で精度の高い需要予測が可能となり、余計な仕入れが発生しづらくなりました。
また、在庫数はもちろん、仕入れ計画の策定や在庫管理業務の負担を削減することに成功しました。
|まとめ :ビッグデータは宝の宝庫
ビッグデータとは、「目まぐるしく蓄積される、多種多様なデータ群」のことです。
ビッグデータには、企業や人が把握し切れないデータが隠れており、ビッグデータ分析することで、新たな知見や価値が発見できると期待されています。
ビッグデータ分析を成功させるためには、自社の課題を洗い出し、データの利用目的を明確化することが第一歩です。
潜在的なデータを呼び起こし、自社の経営戦略やサービスの新価値を見つけ出してみてはいかがでしょうか?