006_母集団データ(3,4,5,5,7,8)の分散と標準偏差を電卓を用いて計算できる

解説

[本記事では、電卓を使わずに計算しています]

分散とは、データの散らばり具合を示す指標のことです。
記号では、[math]V[X][/math]や[math]\sigma^2[/math][ref][math]\sigma[/math]はシグマと読みます[/ref]と表します。
分散が大きいと散らばりが大きく、分散が小さいと散らばりが小さいということが分かります。

分散の定義は、データを[math]x_1,x_2,\cdots ,x_n[/math]とすると、
[math]\mathrm{V}[X]=E[(X-\mu)^2]=\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2[/math]になります。
※[math]\mu[/math] はデータの平均です

今回の母集団データ[math](3、4、5、5、7、8)[/math]の分散を求めてみましょう。
まずは、平均の[math]\mu[/math]を求めます。

[math]\mu=\dfrac{3+4+5+5+7+8}{5}=\dfrac{32}{5}=6.4[/math]

あとは、分散の定義より

[math]\mathrm{V}[X]=\dfrac{(3-6.4)^2+(4-6.4)^2+(5-6.4)^2+(5-6.4)^2+(7-6.4)^2+(8-6.4)^2}{5} ≒2.89[/math]となります。

 

標準偏差とは、データの散らばり具合を示す指標のことです。
記号では、[math]\sigma[/math]と表します。

標準偏差の定義は、データを[math]x_1,x_2,\cdots ,x_n[/math] とすると、
[math]\sigma=\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2}[/math]になります。

[math]標準偏差=\sqrt{ 分散 }[/math]が成り立つため
求める標準偏差は[math]\sqrt{2.89}≒1.70[/math]となります。

ステップアップ

分散と標準偏差は、いずれもデータの散らばり具合を示す指標です。違いは何でしょうか。

分散は標本の単位を2乗しています。そのため、標準偏差のように分散の平方根をとることで、元々の単位に戻すことができ、直感的に散らばり具合が分かるようになります。
一般的にバラツキを表す場合は、分散の平方根である「標準偏差」が用いられます。

キーワード

  • 分散
  • 標準偏差

ソースコード

dispersion.py:分散を求めるプログラム

#coding:utf-8
import numpy as np

# データ
list = np.array([3, 4, 5, 5, 7, 8])

def dispersion():
    # 分散の計算
    dispersion = np.var(list)

    # 結果の表示
    print(u"分散:"+str(dispersion))

if __name__ == '__main__':
    dispersion()

このプログラムを実行すると、与えられた配列の分散を算出します。

分散:2.88888888889

 

std.py:標準偏差を求めるプログラム

#coding:utf-8
import numpy as np

# データ
list = np.array([3, 4, 5, 5, 7, 8])

def dispersion():

    # 分散の計算
    std = np.std(list)

    # 結果の表示
    print(u"標準偏差:"+str(std))

if __name__ == '__main__':
    dispersion()

このプログラムを実行すると、与えられた配列の標準偏差を算出します。

標準偏差:1.6996731712

データセット