統計_データの要約法 ( 度数分布図 と 標準偏差)

どのようにデータを要約し、どのように集団の様子を記述するのか。

1.グラフを描く。
2.平均値を求める。
3.標準偏差を求める。

度数分布図

データを要約したい時は、グラフ化する。
横軸データの値を取り、縦軸にその数をプロットした度数分布図を用いる。
データの数のことを数学では度数と呼ぶ。

 最初にデータを目に見えるようにグラフ化するのは大変重要
これによってデータを感覚的に把握できるので、要約値を求めなくても
データの内容についてある程度の情報を得ることができ、
データの分析法について重要なヒントが得られたりする。

 

f:id:koshinRan:20171102231002p:plain
http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html から。

データ数が多いと、A の度数分布はもっと滑らかなものになり、
B のようなベル形 ( 釣鐘形 ) のグラフになる。

このような形の分布のことを正規分布という。
この分布はガウスという人物によって発見されたと言われていた為、
ガウス分布とも呼ばれている。
( ガウスより前にド・モアブルが二項分布の極限として正規分布を定数化している )

 

度数分布図を見ながら、データ内容を把握するのに
最も適した要約値を検討する。

 

平均値

最初の要約値として平均値を求める。

平均値は mean の頭文字を取って「 m 」と表記したり、
データを表わす記号 x の上に 横線を引き エックスバーと表記したりする。
Σ ( シグマ ) は、合算するという意味の数学記号。

f:id:koshinRan:20171102233450p:plain
https://ja.wikipedia.org/wiki/%E5%B9%B3%E5%9D%87  から。

 

平均値は全データの重心になる。

度数分布図の横軸を長い軸と考え、データ x がプロットされる位置に
一定の重さの錘 ( おもり ) をぶら下げたとすると、
その棒は平均値位置で釣り合いが取れる

そして正規分布は左右対称の為、平均値分布の中央値かつ
最も度数の多い値になる。

分布の中央の値中央値 ( メジアン ) 、
最も度数の多い値最頻値 ( モード ) といい、
これらはデータの代表値としてよく用いられる。


要約値:複数のデータを四則演算によって要約した統計量。
代表値:要約をしないポイント的な統計量。
とする。

 

標準偏差 ( SD : Standard Deviation )

平均値の次は
データのばらつき具合を表す要約値である標準偏差を求める。

統計学では「ばらつきのことを偏差 ( deviation ) とよび、
次のように定義している。

d i = x i - m

ばらつきの要約値を求めるには、この偏差の平均を計算すればよいと思っても、
偏差には正負があり合計すると 0 になってしまう。

なぜならば、平均値が全データの重心だから。

 

そこで偏差の平方 ( 二乗 ) を平均してから平方根を取る。

f:id:koshinRan:20171103001827p:plain

 

統計学上は分散がばらつき要約値になる。
だが分散は平方された値の為、馴染みにくく不便
そこで平方根を取り、元のデータの単位に戻した値 s ( または SD ) を
標準偏差と呼んでこちらを愛用。

 

SS 平方和 ( Sum of Squares )

「個々のデータと平均値の差を二乗した値」の和。
データが全体的にどの程度ばらついているかを表わす。
データの数が多くなるとその値は大きくなる。
f:id:koshinRan:20171103003449p:plain

 

V 分散 ( Variance )

平方和をデータの数で割ってばらつきを平均化した値。
分散は、データ 1 つ当たりどの程度のばらついているかを示しているので、
データの個数が異なるもののばらつきを比較することができる。
f:id:koshinRan:20171103004001p:plain

 

SD 標準偏差 ( Standard Deviation )

分散の平方根のこと。
分散の√ のこと。

 

 

正規分布 ( まとめ )

正規分布では平均値から分布の変曲点までの距離標準偏差になる。

平均値 ±標準偏差の間に全データの約 68 % が、
平均値 ±2×標準偏差の間には全データの約 95 % が含まれる。
品質管理で使われる 2σ ( シグマ ) 法はこの性質を利用している。

変曲点:曲線の凹凸状態が変化する時の点。

 

現実のデータは大半が近似的に正規分布する。

正規分布は例数、平均値標準偏差によって分布の形が完全に決定するため、
これらの 3 つの値によって集団の様子を記述する。

例数:標本集団の規模
平均値:集団の中心位置
標準偏差:集団のばらつき具合

 

 

こちらから。
http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html
http://www.geocities.jp/p_lan_c/arg03.html
https://ja.wikipedia.org/wiki/%E5%88%86%E6%95%A3_(%E7%A2%BA%E7%8E%87%E8%AB%96)

 

以上。