統計_データの要約法 ( 標準偏差と不偏標準偏差 )

母集団の要約法について。

  1. 標本集団の要約値は母集団の要約値と近似
  2. 平均は近似するが、分散は n で割るのでなく ( n-1 ) で割る。
  3. ( n-1 ) で割った分散のことを不偏分散。不偏分散 は母集団を推定する時に使用。
  4. 不偏分散の平方根が不偏標準偏差

 

標本から求めた平均値標準偏 差を、標本平均標本標準偏 差という。

標本集団の要約値に対して、
母集団の様子を記述する要約値のことを母数 ( パラメータ― ) という。

 

母数の表記

母数はギリシ ャ文字で書くのが普通なので、

母集団の平均値 ( 母平均 ) を m に相当する
ギリシ ャ文字の μ ( ミュー ) で表わし、

母集団の標準偏差 ( 母標本偏差 ) を s に相当する
σ ( シグマ ) で表わす。

母集団の分散 ( 母分散 ) は、V に相当する文字がない為、
σ2 ( シグマ二乗 ) で表わす。

※厳密にいえば、母数は要約値というよりも母集団の性質を左右する定数。
  定数によって確率変動の挙動が決定されていると考える。

 

標本集団から母数の推定

標本集団は母集団の代表なので、
標本集団の要約値と母集団の要約値は近似すると考えられる

だが、母平均の方は標本平均で近似できるが、
母分散の方は n の代わりに ( n-1 ) で割った方がより近似する。
f:id:koshinRan:20171106235429p:plain

何故 n-1 で割った方が近似がよいのかというと、
平均値の定義式と関係がある。

100人 の標本集団の平均値が 60 だったとする。
平均値の定義式から分かるように、平均値を固定すると 99 個は変動できるが、
1 個は 平均値を 60 にする為に変動はできず、決まった値になってしまう。

このような関係を一次従属と呼び、自由に変動できるデータのことを
独立変数という。独立変数によって値が決められるデータのことを従属変数
独立変数の個数を自由度という。

ばらつきの原因になっているのは独立変数なので、自由度 ( n-1 ) で割って
1 自由あたりの偏差平均を計算した方が理屈に合っている。

そのため標本集団のデータから母分散を推定する時は
自由度に割った値が用いられる。
そして、この値 ( n-1 で割った分散 V ) は不偏分散と呼ばれている。
f:id:koshinRan:20171106235429p:plain

「不偏」というのは「偏らない」という意味。
不偏分散で推定すると偏らずにうまく近似できることを表わしている。
したがって、標準 偏差不偏分散の平 方根 ( 不偏標準偏 差 ) によって推定する。 f:id:koshinRan:20171107001931p:plain

 

不偏標準偏 差の概念は以下のように考えると分かりやすい。

  1. 母集団の分布は左右に広く広がっている。
  2. 分布の左右の端の部分は度数が少ないため
    標本集団に選ばれる可能性が低い。
  3. そのため標本集団の分布は左右の端が少し切れている。
  4. 母集団の標準偏差を推測する時は、
    標本集団の標準偏差よりも少し大きな値にした方が近似が良い。
  5. 平方和を n で割る代わりに(n-1)で割って少し大きな値にしたものが
    不偏標準偏差である。

 

こちらから。
http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html

 

以上。