今回の「人事データ活用入門」について(編集部)
本記事は、人材育成や組織開発などの支援を行う株式会社リクルートマネジメントソリューションズの「連載・コラム」コーナーで、2017年4月17日に公開されたこちらの記事を、同社のご協力によりIT人材ラボへ転載しているものです。
「相関分析」と「回帰分析」は何が違うのか
「主任時のパフォーマンス」と「課長昇進後のパフォーマンス」という2つの変数を例に相関分析と回帰分析の違いを模式図で示すと、図表1のようになります。
2つの変数の関連を分析する点においては、相関分析と回帰分析は同じ分析のように見えます。では、両者の違いはどこにあるのでしょうか? それは、図表1の「矢印の向き」です。
相関分析では、2つの変数の間の関係は「双方向」という前提を置いています。一方、回帰分析では、「主任時のパフォーマンスが、課長昇進後のパフォーマンスに影響している」とあるように「一方向」の関係を前提としています。
このような特徴と関連して、回帰分析では、予測に用いる変数(矢印の出発点にある変数:図表1では「主任時のパフォーマンス」)と、予測の対象となる変数(矢印の終着点にある変数:図表1では「課長昇進後のパフォーマンス」)には、それぞれ異なった名称が用いられます。具体的には図表2のような、
- 予測に用いる変数 = 独立変数、あるいは説明変数(以下「独立変数」で統一)
- 予測の対象となる変数 = 従属変数、あるいは目的変数(以下「従属変数」で統一)
という名称です。
回帰分析のイメージをつかむ
図表3のように、回帰分析は、独立変数が1つの場合は「単回帰分析」、2つ以上の場合は「重回帰分析」といいます。今回は基本的な考え方をご理解いただくことを目的に、より単純な「単回帰分析」を例に詳しく説明をしていきます。
回帰分析は、シンプルにいうと、「得られたデータをもとに、『従属変数 = 定数 + 係数 × 独立変数(Y = a + bX)』という一次式を求めること」です。図表4でいうと、「一次式を求めること = 黄色の直線を求めること」です。
分析結果として着目するのは、まず「どのような直線であるかを表す数値」の、
- 直線のかたむき = 回帰係数
- 直線がどこを通るかを示すための「直線とy軸の交点」= 切片
です。
それに加えて、そもそも「その直線は、どの程度データにあてはまっているのか」という結果の信憑性を示す、相関係数、決定係数、分散比です。
これらの数値について、次ページから詳しく説明します。