解説
[本記事では、電卓を使わずに計算しています]
分散とは、データの散らばり具合を示す指標のことです。
記号では、[math]V[X][/math]や[math]\sigma^2[/math][ref][math]\sigma[/math]はシグマと読みます[/ref]と表します。
分散が大きいと散らばりが大きく、分散が小さいと散らばりが小さいということが分かります。
分散の定義は、データを[math]x_1,x_2,\cdots ,x_n[/math]とすると、
[math]\mathrm{V}[X]=E[(X-\mu)^2]=\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2[/math]になります。
※[math]\mu[/math] はデータの平均です
今回の母集団データ[math](3、4、5、5、7、8)[/math]の分散を求めてみましょう。
まずは、平均の[math]\mu[/math]を求めます。
[math]\mu=\dfrac{3+4+5+5+7+8}{5}=\dfrac{32}{5}=6.4[/math]
あとは、分散の定義より
[math]\mathrm{V}[X]=\dfrac{(3-6.4)^2+(4-6.4)^2+(5-6.4)^2+(5-6.4)^2+(7-6.4)^2+(8-6.4)^2}{5} ≒2.89[/math]となります。
標準偏差とは、データの散らばり具合を示す指標のことです。
記号では、[math]\sigma[/math]と表します。
標準偏差の定義は、データを[math]x_1,x_2,\cdots ,x_n[/math] とすると、
[math]\sigma=\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2}[/math]になります。
[math]標準偏差=\sqrt{ 分散 }[/math]が成り立つため
求める標準偏差は[math]\sqrt{2.89}≒1.70[/math]となります。
ステップアップ
分散と標準偏差は、いずれもデータの散らばり具合を示す指標です。違いは何でしょうか。
分散は標本の単位を2乗しています。そのため、標準偏差のように分散の平方根をとることで、元々の単位に戻すことができ、直感的に散らばり具合が分かるようになります。
一般的にバラツキを表す場合は、分散の平方根である「標準偏差」が用いられます。
キーワード
- 分散
- 標準偏差
ソースコード
dispersion.py:分散を求めるプログラム
#coding:utf-8 import numpy as np # データ list = np.array([3, 4, 5, 5, 7, 8]) def dispersion(): # 分散の計算 dispersion = np.var(list) # 結果の表示 print(u"分散:"+str(dispersion)) if __name__ == '__main__': dispersion()
このプログラムを実行すると、与えられた配列の分散を算出します。
分散:2.88888888889
std.py:標準偏差を求めるプログラム
#coding:utf-8 import numpy as np # データ list = np.array([3, 4, 5, 5, 7, 8]) def dispersion(): # 分散の計算 std = np.std(list) # 結果の表示 print(u"標準偏差:"+str(std)) if __name__ == '__main__': dispersion()
このプログラムを実行すると、与えられた配列の標準偏差を算出します。
標準偏差:1.6996731712
データセット
ー