最終更新日:2023-09-26
データ分析21手法の特徴を初心者向け徹底解説!ビッグデータを活用するには?

日々蓄積されていく膨大なデータを正しく分析して、高度な経営判断や新商品や新事業の戦略立案、競合分析、既存サービスの改善の判断基準にする企業が増えています。
ビジネスに用いるデータ分析には、統計学や視覚化、AI(人工知能)を活用したものなどさまざまな種類があり、適切な手法を選択することで効果的な分析が可能です。でも「データ分析には具体的にどのような手法があるのか」「適切なデータ分析手法とは」という疑問をお持ちではありませんか。
そこで本記事では、データ分析の手法に関する疑問を解決するべく、具体的なデータ分析手法と特徴、AIを用いたデータ分析手法を解説します。特にAI分野では、データ分析の手法をアルゴリズムと呼び、どのアルゴリズムを選択するかで解析の精度が大きく変わってきます。
データ分析の手法それぞれの特徴を理解することで、より効果的にデータ分析が行えます。ぜひ参考にしてください。
こちらで企業でのデータ分析の重要性や業種ごとの事例を詳しく説明しています。
AI Marketでは、
目次
定数データ分析と定量データ分析とは?
データ分析の手法には統計学や視覚化、AIなどがあり、まず「定量データ分析」と「定性データ分析」の2つに分類されます。データ分析では、2つの分類をかけ合わせ精度を高めています。
定量データ分析
定量データ分析は、数値をもとにデータ分析を行います。具体的には、サービスの利用者数やイベントの来場者数などが定量データ分析に用いる数値データです。
定量データ分析は、客観的な数値でデータ分析が可能であるため主観に左右されません。しかし、精度を高めるためにはより多くのデータが必要となるのが難点です。
また、数値の因果関係や数値の背後にあるユーザーの価値観や感情を探ることには向いていません。
定性データ分析
定性データ分析は、数値ではなく質的データをもとにデータ分析を行います。例えば、サービスに関する感想や印象を口コミやインタビュー、記述式アンケートで収集するのは質的データです。
質的データをもとにしたデータ分析は、俯瞰的な情報からサービスの課題を探求できます。
定性データ分析は、分析者の主観により、解釈の違いが生じることがあるので注意が必要です。また、定量分析よりもデータ収集と分析に時間とコストがかかる傾向があります。
従来のコンピューターは、どちらかというと数値データを基にした定量データ分析を得意としており、定性データ分析を苦手としていました。しかしAIの進歩により、定性データ分析を定量データと同程度の工数とコストで行えるようになっています。
統計学によるデータ分析7手法と特徴
代表的な定量分析である統計学によるデータ分析は、歴史が長く、さまざまな種類があるため多くのシーンで活用されます。統計学によるデータ分析の手法は以下です。
1. クロス集計
2. クラスター分析
3. 回帰分析
4. 因子分析
5. 主成分分析
6. 時系列分析
7. 判別分析
まずは、統計学によるデータ分析の手法と特徴を解説します。
クロス集計
クロス集計は、アンケートやリサーチなどの質問項目を2つ以上掛け合わせたデータ分析です。集めたデータを詳細化し把握できるため、ありとあらゆる統計的調査で活用されます。
クロス集計では「性別×回答」や「年齢×職業」など原因と結果の因果関係がわかりやすいという特徴があります。また、必要なデータが質問項目2つ以上であるため、少ないデータから分析でき、表計算ソフトで簡単に作成できるので、比較的簡単なデータ分析です。
クラスター分析
クラスター分析は、さまざまな特性を持つ複数の情報から似た要素を集め、いくつかのグループ(クラスター)に分類するデータ分析です。大量のデータを単純化し、理解しやすくできるため分析結果から考察をしやすくなります。
例えば、あるスポーツチームに所属する選手のデータを走力、スタミナ、協調性などの項目でクラスター分析を行うとしましょう。結果、チームにとって有用な選手とそうでない選手の差、チーム全体としての特性を分析できます。
クラスター分析には、「階層的手法」と「非階層的手法」の2つの手法があります。
階層的手法
階層的手法は、要素を一つ一つ総当たりで比較して、類似したデータをクラスター(グループ)にまとめて分類していきます。よく見るトーナメント表のような形ができあがります。最終的にいくつのクラスターにまとめるかは事前には決まっておらず目的に応じて可変です。
類似した要素は低い位置でクラスターが作成されていき、最終的に大きなクラスターができあがります。クラスター同士の関係などがひと目でわかるというメリットがありますが、数が多い場合は煩雑になり、分析が難しくなってしまうので、データが大量にある場合は不向きであるというデメリットがあります。
データ分析中、またはデータ分析後にクラスターのレベルを増減しても再現可能な結果を得られます。対象データが比較的少ない場合のデータ分析に適しています。
非階層的手法
非階層的手法は、クラスター数を設定したうえで似た要素をまとめて分類します。クラスタ数が決まっているので計算量が少なく、階層的手法に比べるとビッグデータのような大きなデータを扱えます。
ただし、目的に応じたクラスター数を事前に決める明確な数式はありません。実際は分析しながらクラスターの数を何度か試すなり、手間がかかります。クラスター数を変える場合は、最初に戻って分析をやり直さなければなりません。
回帰分析
回帰分析は、(原因と思われる)要素と結果のデータを分析し、それぞれの関連性を明確にするデータ分析です。特徴として、結果の変動に要素がどの程度関連しているか分析できます。回帰分析での結果を「目的変数」、要素を「説明変数」と呼びます。
回帰分析には、2つの分析手法があり、1つの説明変数が目的変数にどの程度関連しているのか分析する手法が「単回帰分析」です。説明変数が2つ以上の分析は「重回帰分析」となります。
例えば、ある店舗のデータで1年の売上高を目的変数、取り扱う商品数を説明変数として分析するとしましょう。この例では、説明変数が1つであるため、単回帰分析です。
一方で重回帰分析では説明変数が複数存在します。商品数の他に割引サービスや店舗の位置、スタッフの人数などをさまざまな要素を含め分析します。このように、回帰分析を活用すると結果と要素からそれぞれの関連性を明確に分析できます。
因子分析
因子分析とは、さまざまな要素のデータの中から潜在的な共通点を見つけ出し、類似した要素のグループに分類するデータ分析です。さまざまな要素の中から強い影響力を与えている要素を明確にできるのが特徴です。
例えば、多くの項目がある質問やアンケートを分析する際、回答から答えた人たちの共通点を導き出せます。分析結果からサービスの利用につながる要素を把握でき、効果的なマーケティングが可能になります。
主成分分析
主成分分析は、主にマーケットリサーチを行うのに役立ちます。複数の定量的な変数を、より少ない合成変数(主成分)に要約してデータをシンプルに把握できる手法です。
例えば、商品の感想に対する5段階評価の質問を3個用意して、この評価の合計点数を「総合評価」という主成分に要約します。この総合評価の点数で、商品ランキングや、他社商品とのポジショニングマップを作成するなど、消費者の傾向を探ることができます。また、新商品の開発の際のマーケットリサーチ手段としても利用することができます。
因子分析が、データに影響を与えている要因の共通因子を抽出する方法であるのに対し、主成分分析では多数のデータを少数の主成分に変換して表す方法です。
時系列分析
時系列分析は、時間の経過とともに変化するデータを対象としたデータ分析です。過去のデータの変化から商品の改善や未来予測に利用することができます。特徴として、年間単位でデータ分析を行うため、長期的なトレンドやシーズンのトレンド調査が可能です。具体的に株価や為替レート、天気など長期的に分析が必要な要素に活用されます。
例えば、毎月の商品別のデータを数年にわたって取ることで、売れなくなった商品が、毎年のある時期に売れなくなるのか、ある時点から下降傾向にあるのかなどの原因を把握できます。
時系列分析は年月が過ぎるほどデータの量が多くなるため、データ分析を繰り返していくほど精度が高まることが予測できます。しかし、変化の推移がわかるように、同じ条件で定期的にデータを収集しなければならないデメリットがあります。
判別分析
判別分析は、グループに分かれている既存のデータをもとにどんな基準で分けられたのか分析し、未知のデータがどのようなグループに分類されるか予測するデータ分析です。未知のデータを分析できるため、将来の予測が可能です。
例えば、今まで罹患した病気データを基に将来かかる病気を予測したり、過去の流行の推移を基に数年後のトレンドを予測したりなどです。医療現場からマーケティングといった幅広い分野で活用できます。
視覚化によるデータ分析5手法と特徴
視覚化によるデータ分析は、データをわかりやすく可視化する分析の手法です。視覚化によるデータ分析の手法は以下です。
1. チャート
2. プロット
3. 地図
4. ダイアグラム
5. マトリックス
それぞれ解説していきます。
チャート
チャートは、分析したデータをグラフとして可視化するデータ分析の手法です。データを棒グラフや折れ線グラフ、円グラフなどさまざまなグラフに可視化でき、要素の関連性や異なる部分をひと目で理解できるようになります。
チャートは、時間経過を表すデータや割合を表すデータなど活用できるシーンが多岐にわたります。また、視覚化によるデータ分析の手法の中でも比較的簡単に活用できる点は大きなメリットです。
プロット
プロットは、2つ以上の複数のデータを二次元または三次元空間に分散させ、各要素の関連性や全体の傾向を表示するデータ分析の手法です。大量のデータを分析した後、プロットにして表示させることで、要素の因果関係が理解しやすくなります。
プロットも前述したチャート同様、活用できるシーンが多岐にわたります。プロットにはさまざまな種類があり、比較的多く利用されているものは散布図とバブルチャートです。
地図
「地図はデータ分析の手法なのか」と思った方も多いことでしょう。地図は大陸の形や建物の形などを可視化したデータ分析の手法です。
特に、近年は衛星の映像により、正確な地図が完成しています。地図は、パンデミックや人口の数などの詳細をヒートマップとして表示することも可能です。
ダイアグラム
ダイアグラムは、さまざまなデータを分析する際、一つの画面にツリーや階層により可視化するデータ分析の手法です。さまざまなデータから関連性を見出したいときや要素を摘出するときに活用します。ダイアグラムも前述したチャートやプロットのようにさまざま種類があります。
マトリックス
マトリックスとは、データの要素から関連性を分類するため二次元の表に整理するデータ分析の手法です。二次元の表は縦軸と横軸で構成されており、データの要素がある位置の縦軸と横軸が交わる部分から分析を行います。
AIを活用したデータ分析9手法と特徴
AIを活用したデータ分析は、機械学習や深層学習(ディープラーニング)を活用することでデータの変動を分析する手法です。ディープラーニングと機械学習の違い、どちらを使うか決める方法についてはこちらの記事で詳しく解説しています。
AIを活用した代表的なデータ分析方法は以下です。
1. 決定木分析
2. アソシエーション分析
3. ファジー理論
4. サポートベクターマシン(SVM)
5. K近傍法
6. ナイーブベイズ(単純ベイズ)
7. k-means法(クラスタリング)
8. 次元削減
9. 自己組織化マップ(SOM)
それぞれ解説していきます。
決定木分析
決定木分析は、要素から結果を予測する樹木型のデータ分析の手法です。数学的には回帰分析と似ていますが、決定木分析は「イエスかノー」の2択です。そのため、シンプルに結果の予測が可能であり、データの数が少なくても行えます。目的変数に影響する説明変数を明らかにし、樹木図を作成する手法で、説明変数の結果を分岐させていくことで視覚的に理解しやすいメリットがあります。
例えば、商品Aを購入したいと考えている割合が60%だとした場合に、60%の男性・女性のどちらの割合が高いか、どの年代の層の割合が高いかなどを分岐させて樹形図を作っていきます。クロス集計したものをよりわかりやすく視覚化して、ターゲット層を分析できます。
決定木分析は基本的にイエスかノーの2択で分岐ですので、AIを使用した予測が可能であり、アンケートデータをもとに結果予測が可能です。
決定木分析は、アンケートやリサーチなどのさまざまなデータをもとに結果を予測でき、消費者の傾向や特徴を把握するのに役立ちます。
アソシエーション分析
アソシエーション分析は、複数のデータの中からAIを活用して関連性の高い要素を分析する手法です。「もしこうだったら、こうなるであろう」という関連性を見つけ出すのに向いています。
購買データから人々の購買行動を予測する際によく使われます。身近なところでは「これを買ったお客さんは、この商品も一緒に買う可能性が高い」という予測です。小売店舗やオンラインストアでは購入履歴を基に、商品配置やレコメンド商品決定の指標として役立つでしょう。
AIによるレコメンド機能の活用事例についてはこちらの記事で解説しています。
アンケートやモニターテストの結果をテキストマイニングなどで集計した結果から、データの関係性やパターンを分析するためにつかわれることも多い手法です。データ量が少なければデータ同士の関連に信憑性がありませんので、一定以上のデータが必要であるというデメリットがあります。AIに機械学習させることで予測することができます。
ファジー論理
ファジー理論は、人間の言語や推測に取り込まれている曖昧性を一つの変数と考え、1(真)と0(偽)の間で任意の数で予測するデータ分析の手法です。ファジー理論では、真偽だけではない不確実性に対処できるため、複雑系の制御システムに組み込まれています。
サポートベクターマシン(SVM)
サポートベクターマシン(SVM)は、回帰・分類・外れ値の検出に用いられる教師あり学習のアルゴリズムです。2つのクラス群を識別する境界線を定め、新しいデータがどちらのクラスに属するかを決定するために使用されます。
サポートベクターマシン(SVM)は、パターン認識の手法で物事を分類します。パターン認識とは、画像や音声などの膨大なデータから一定の特徴や規則性を取り出す処理です。特徴量の空間上で、2つのクラスとなるよう分けるための線型関数を求めます。
サポートベクターマシンには以下のメリットがあります。
- 少ないデータ量でも正しく分類しやすい
- データの次元が大きくなっても識別の精度が高い
- 最適化すべきパラメーターが少ない
SVMは学習データの特徴量が多くても、識別精度を保ちながら計算コストを抑えることができるため、実用的なアルゴリズムとして広く使用されています。
SVMは、医療診断、画像認識、音声認識、自然言語処理、金融分析、Web分類、DNA解析など様々な分野で使用されています。Pythonをはじめとする機械学習系プログラミング言語では、SVMを実装するためのライブラリが提供されています。
K近傍法
K近傍法は教師あり学習によるパターン認識で用いられます。アルゴリズムはシンプルで、予測したい値を入力すれば、特徴量と近い距離にあるデータで多数決をとって、結果を予測値とするアルゴリズムです。
時系列に対するデータに対して距離を定めて、その距離から異常値なのかどうかを判断します。シンプルでわかりやすいアルゴリズムであり、特に小規模なデータセットに対しては高い精度を発揮します。
K近傍法は、データセットが大きくても高速に処理できます。デメリットは、大規模なデータセットに対して処理が遅くなることや、高次元のデータに対しては有効ではなくなることです。
ナイーブベイズ(単純ベイズ)
ナイーブベイズは分類問題を解くため教師あり学習に用いられるアルゴリズムで、確率論の定理であるベイズ理論をもとにしています。あるデータがどのクラスに属するか判定する手法です。
シンプルで計算量が少なく処理が高速であるため、大規模データや現実世界の複雑な問題にも対応できます。身近な例では、迷惑メールのフィルター機能やウェブニュース記事のカテゴリ分けに使われています。
k-means法(クラスタリング)
k-means法は、教師なし学習で似たデータを集めて分類する非階層的なクラスタリング手法のアルゴリズムです。k-means法では、データを予め決めた数(k個)のクラスタに分けます。
k-means法は、データ量が多い場合でも計算速度が速いため、大規模なデータセットに適しています。ただし、クラスタの初期値の設定方法によっては、結果が大きく変わってしまいます。
次元削減
次元削減は、データを高次元から低次元へできるだけ情報は保ったまま変換する教師なし学習向きのアルゴリズムです。高次元のデータだと直接確認できないため、可視化できるように次元を変換します。
次元削減のアルゴリズムとして代表的なのが主成分分析(PCA)です。特徴量を抽出することで、データセット内の特徴量が削減できます。
自己組織化マップ(SOM)
自己組織化マップ(SOM)は、教師なし学習でニューラルネットワークに基づいたクラスタリング手法の一つです。入力データの類似度をマップ上の距離で表現し、自動的に分類します。
人間が識別することが難しい高次元のデータでも中に存在する特徴を見つけクラスタリングが可能です。
AI Marketでは、
データ分析の手法を効率よく選ぶ
データ分析の手法には、さまざまな種類があります。
分析するデータと分析目的に応じて手法を変えることで効率よくデータ分析が可能です。例えば、アンケートやリサーチなどのデータから結果を予測したいのであれば回帰分析や決定木分析を活用することが適切です。
このように、扱うデータに合わせて手法を変えることがデータ分析において重要になります。特にビッグデータを取り扱う場合は、データ分析の手法を正しく選ばなければ分析結果の正当性や妥当性も評価できません。
そして、分析を行う際、または外部に委託する場合でも、分析を行う理由や目的、用いる手法の問題点について正確に認識していなければなりません。データの意味や背後関係がわかっていなければ、分析結果に基づいて正しい方針を出すこともできないでしょう。
こちらで需要予測によく使われるデータ手法ををより詳しく説明しています。
まとめ
データ分析には、さまざまな種類があり、扱うデータに合わせて適切な手法を選択することが重要です。
データ分析の手法を学ぶことで、データから予測できるようになり、さまざまなシーンで役立ちます。
AI Marketでは、
