統計の基礎〜偏差、平均偏差、標準偏差、分散、標準化、偏差値について
データのバラツキで出てくる言葉で、「偏差」、「平均偏差」「標準偏差」、「分散」とは何を行っているのか復習です。
データのバラツキを見るときにまず基準になるのは、平均です。
平均との関係を視点にして見ていくとわかりやすいと思います。
偏差
偏差はある値と各値の平均との差のことです。
偏差の値はマイナスになることもあります。
実例
Aクラス、Bクラスとも4人の点数があります。話を簡単にするために極端な例にしています。
それぞれの点数は以下の表の通りです。
得点 | 20 | 90 | 10 | 80 |
---|
得点 | 40 | 50 | 60 | 50 |
---|
AクラスもBクラスも平均は50になります。
平均 = 50
けれども、そのバラツキは全く違います。それはグラフで確認すると明解です。
偏差を求める
偏差の合計は必ず 0 になります。
偏差 | -30 | 40 | -40 | 30 |
---|
偏差 | -10 | 0 | 10 | 0 |
---|
せっかく偏差を覚えたからこれを利用して分析に役立てたいところですが、偏差の合計は必ず 0 になってしまうことから、数式的に活用することはこれ以上できません。せいぜいバラツキの度合いを知ることでしょうか。
平均偏差
けれども少し工夫すると偏差から平均偏差を求めることができます。
平均偏差とは、散らばりを表す指標のひとつで、それぞれのデータの偏差の絶対値からデータ個数で割って算出される偏差の平均値です。
単純に加算すると0になるため、絶対値を加算するところがポイントです。
Aクラスの平均偏差 = (30 + 40 + 40 + 30) / 4
Bクラスの平均偏差 = (10 + 0 + 10 + 0) / 4
Aクラスの平均偏差 = 35
Bクラスの平均偏差 = 5
結果はAクラス35、Bクラス5であり、それぞれの平均に対するバラツキ度をより端的に表現するこができます。
$$
= \frac{1}{n}\sum_{i=1}^n|x_i-\bar{x}|
$$
分散
偏差を絶対値ではなく、2乗することで偏差の平均を求めたものを「分散」といいます。
平均偏差の式と比較してみるとわかると思いますが、2乗するか絶対値にするかの違いです。
分散は2乗するため、値は大きくなってしまいます。
$$
S^2 = \frac{1}{n}\sum_{i=1}^n(x_i – \bar{x})^2
$$
平均偏差の具体例
先の例のAクラス,Bクラスの点数で確認してみます。
Aクラスの分散 = (900 + 1600 + 1600 + 900) / 4
Bクラスの分散 = (100 + 0 + 100 + 0) / 4
Aクラスの分散 = 1250
Bクラスの分散 = 50
Aクラスの平均偏差 = 35
Bクラスの平均偏差 = 5
分散は2乗を使っているので、平均偏差と比べると単位が随分大きくなっています。
標準偏差
分散では単位が大きくなってしまいますので、2乗したものをもとに戻す発想が標準偏差です。
$$
S = \sqrt{ \frac{1}{n}\sum_{i=1}^n(x_i – \bar{x})^2}
$$
実際のデータの分散を見るときには標準偏差が使われます。
平均偏差ではダメな理由
平均偏差は数学的にあまり利用価値がないのは、絶対値で計算しているところです。
絶対値を使うより2乗の方が有利なのは、2乗した場合には微分が使えるからです。
誤差を最小にする計算などで微分が大活躍しますが、絶対値ではそれが使えません。
標準偏差の具体例
先の例のAクラス,Bクラスの点数で確認してみます。
Aクラスの標準偏差 \( = \sqrt{ (900 + 1600 + 1600 + 900) / 4} \)
Bクラスの標準偏差 \( = \sqrt{(100 + 0 + 100 + 0) / 4} \)
Aクラスの標準偏差 = 35.36
Bクラスの標準偏差 = 7.071
標準化
先程までの例で、各点数の偏差を標準偏差で割ることで、標準化した値を求めることができます。
標準化した値の合計は0になります。また、標準化した値の標準偏差は1になります。
偏差 | -30 | 40 | -40 | 30 |
---|---|---|---|---|
標準化した値 | -0.848 | 1.131 | -1.131 | 0.848 |
偏差 | -10 | 0 | 10 | 0 |
---|---|---|---|---|
標準化した値 | -1.4142 | 0 | 1.4142 | 0 |
偏差値
偏差値は標準化した値を10倍して50プラスしたものです。
標準化した値 x 10 + 50
つまり
(偏差 / 標準偏差) x 10 +50