統計の基礎〜偏差、平均偏差、標準偏差、分散、標準化、偏差値について

AI

データのバラツキで出てくる言葉で、「偏差」、「平均偏差」「標準偏差」、「分散」とは何を行っているのか復習です。

データのバラツキを見るときにまず基準になるのは、平均です。
平均との関係を視点にして見ていくとわかりやすいと思います。

スポンサーリンク

偏差

偏差はある値と各値の平均との差のことです。
偏差の値はマイナスになることもあります。

偏差 = 自分の点数 ー クラス平均の点数

実例

Aクラス、Bクラスとも4人の点数があります。話を簡単にするために極端な例にしています。
それぞれの点数は以下の表の通りです。

Aクラスの得点
得点 20 90 10 80
Bクラスの得点
得点 40 50 60 50

AクラスもBクラスも平均は50になります。
平均 = 50
けれども、そのバラツキは全く違います。それはグラフで確認すると明解です。

偏差を求める

偏差の合計は必ず 0 になります。

Aクラスの偏差
偏差 -30 40 -40 30
Bクラスの偏差
偏差 -10 0 10 0

せっかく偏差を覚えたからこれを利用して分析に役立てたいところですが、偏差の合計は必ず 0 になってしまうことから、数式的に活用することはこれ以上できません。せいぜいバラツキの度合いを知ることでしょうか。

平均偏差

けれども少し工夫すると偏差から平均偏差を求めることができます。
平均偏差とは、散らばりを表す指標のひとつで、それぞれのデータの偏差の絶対値からデータ個数で割って算出される偏差の平均値です。
単純に加算すると0になるため、絶対値を加算するところがポイントです。

Aクラスの平均偏差 = (30 + 40 + 40 + 30) / 4
Bクラスの平均偏差 = (10 + 0 + 10 + 0) / 4

Aクラスの平均偏差 = 35
Bクラスの平均偏差 = 5
結果はAクラス35、Bクラス5であり、それぞれの平均に対するバラツキ度をより端的に表現するこができます。

平均偏差
$$
= \frac{1}{n}\sum_{i=1}^n|x_i-\bar{x}|
$$

分散

偏差を絶対値ではなく、2乗することで偏差の平均を求めたものを「分散」といいます。
平均偏差の式と比較してみるとわかると思いますが、2乗するか絶対値にするかの違いです。
分散は2乗するため、値は大きくなってしまいます。

分散
$$
S^2 = \frac{1}{n}\sum_{i=1}^n(x_i – \bar{x})^2
$$

平均偏差の具体例

先の例のAクラス,Bクラスの点数で確認してみます。

Aクラスの分散 = (900 + 1600 + 1600 + 900) / 4
Bクラスの分散 = (100 + 0 + 100 + 0) / 4

Aクラスの分散 = 1250
Bクラスの分散 = 50

Aクラスの平均偏差 = 35
Bクラスの平均偏差 = 5
分散は2乗を使っているので、平均偏差と比べると単位が随分大きくなっています。

標準偏差

分散では単位が大きくなってしまいますので、2乗したものをもとに戻す発想が標準偏差です。

標準偏差
$$
S = \sqrt{ \frac{1}{n}\sum_{i=1}^n(x_i – \bar{x})^2}
$$

実際のデータの分散を見るときには標準偏差が使われます。

平均偏差ではダメな理由

平均偏差は数学的にあまり利用価値がないのは、絶対値で計算しているところです。
絶対値を使うより2乗の方が有利なのは、2乗した場合には微分が使えるからです。
誤差を最小にする計算などで微分が大活躍しますが、絶対値ではそれが使えません。

標準偏差の具体例

先の例のAクラス,Bクラスの点数で確認してみます。

Aクラスの標準偏差 \( = \sqrt{ (900 + 1600 + 1600 + 900) / 4} \)
Bクラスの標準偏差 \( = \sqrt{(100 + 0 + 100 + 0) / 4} \)

Aクラスの標準偏差 = 35.36
Bクラスの標準偏差 = 7.071

結局偏差や標準偏差はバラツキの程度をみているのです。

年中、偏差とか標準偏差とか分散を使っている人にはなんでもないことかもしれませんが、なんだか紛らわしい単語ばかりでたまにしか使わない場合、どれがどれだかね。。。
なんとかうまく覚えたいものですね。

標準化

先程までの例で、各点数の偏差を標準偏差で割ることで、標準化した値を求めることができます。
標準化した値の合計は0になります。また、標準化した値の標準偏差は1になります。

標準化した値 = 偏差 / 標準偏差

  

Aクラスの偏差
偏差 -30 40 -40 30
標準化した値 -0.848 1.131 -1.131 0.848
Bクラスの偏差
偏差 -10 0 10 0
標準化した値 -1.4142 0 1.4142 0

偏差値

偏差値は標準化した値を10倍して50プラスしたものです。

偏差値
標準化した値 x 10 + 50
つまり
(偏差 / 標準偏差) x 10 +50

スプレッドシートで不偏分散の求め方【VAR関数】

分散はVAR関数を使うことで求められます。VARはバリアンス

=VAR(範囲)

もし、範囲にテキスト値が入っていた場合はスキップされます。テキスト値は0としてカウントしたい場合は、VARA関数を使います。

=VARA(範囲)

スプレッドシートで不偏標準偏差の求め方【STDEV関数】

不偏標準偏差はSTDEV関数を使うことで求められます。

=STDEV(範囲)

範囲にテキスト値が入っていた場合はスキップされます。テキスト値は0としてカウントしたい場合は、STDEVA関数を使います。

=STDEVA(範囲)

データが**母集団そのものの場合**の標準偏差はSTDEVP関数を使います。STDEVとの使い分けは母集団か否かの違いです。

=STDEVP(範囲)

不偏分散、不偏標準偏差とは

手計算で分散を求めた時と関数を使用した時では結果が違うのは不偏分散の考え方が入っているためです。

標準偏差や分散には2通りのタイプがあります。ひとつは,**母集団(興味のある集団の全数を含む集団)の推定値としての標準偏差**です。母集団の標準偏差たとえば日本人全員の体重の標準偏差は基本的には知ることができません。そのため標本からそれを推測するしかありません。

しかし,標本から推測した標準偏差は,本当の母集団の標準偏差よりもやや小さい値を取ってしまうことが知られています。これを**かたよりとかバイアス**といいます。そのため、標本から推測した標準偏差よりも少しだけ大きい値の方が,推測値として適切なのです。具体的には,標準偏差や分散をもとめるときに,偏差自乗和を人数で割ったのですが,その代わりに人数-1で割ります。一人分少ないと仮定して平均を求めます。そうすると値が少し大きくなって,推定値として好ましいのです。

こうしてもとめる値を**不偏標準偏差(分散)**といいます。**通常,推定値を得るためには,この方法を使います**。つまり、一般に標準偏差といわれているものは,不偏標準偏差をあらわしていることが多いです。

タイトルとURLをコピーしました