相関係数
出典: フリー百科事典『ウィキペディア(Wikipedia)』
相関係数(そうかんけいすう、correlation coefficient)とは、2 つのデータ列の間の相関(類似性の度合い)を示す統計学的指標である。-1 から 1 の間の実数値をとり、1 に近いときは2 つのデータ列には正の相関があるといい、-1 に近ければ負の相関があるという。0 に近いときはもとのデータ列の相関は弱い。
たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば -1 に近い数字になる。
普通単に相関係数といえば、ピアソンの積率相関係数(Pearson product-moment correlation coefficient)をさす(本項で詳述する)。これは偏差の正規分布を仮定する(パラメトリック)方法であるが、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる。
相関係数は、あくまでもデータ間の線形関係を計測しているに過ぎない。また、データ間の因果関係を説明するものでもない。相関係数は順序尺度であり間隔尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
[編集] 定義
2 つのデータ列 x = {xi}, y = {yi} があたえられたとき、相関係数は以下のように求められる。
ただし、, はそれぞれデータ x = {xi}, y = {yi} の相加平均である。
これは、各データの平均からのずれを表すベクトル
の成す角である。
また、この式は共分散をそれぞれの標準偏差で割ったものに等しい。