キーワード辞典
恐ろしく簡単な統計の用語

登録日 08/12/05   更新日 08/12/05



基本編

母集団

統計を取ろうとする対象の全て。 例えば、「東京都民」が統計の対象であれば、東京都民全員。


標本

母集団(例えば東京都民全員)に対して調査をするのは大変なので、その中から任意に抽出して統計をとる対象。 ただし、それなりの数で、母集団と同じ性質を同程度に持つ集団でなければ、意味がない。


合計

調査をした全ての値を加算したもの。


平均

合計を、加算した個数で割ったもの。


偏差

調査をした各々の値と平均との差。各々の値から平均を引く。 各々の値が平均よりも大きければプラスの値、小さければマイナスの値になる。


偏差平方和

偏差では、各々の値と平均との距離は判るが、全体の散らばり具合は判らない。 かといって、偏差を全て足すと、プラスの値とマイナスの値とで打ち消し合って0になってしまう。 仕方がないので、偏差を2乗(平方)して全てプラスの値にした上で加算(和)することで、 全体の散らばり具合を見る。


分散

偏差平方和を、加算した個数で割ったもの。

母集団ではなく標本によって分散を求めた場合、何故か、母集団によって求めた値よりも微妙に小さくなる傾向があるため、 偏差平方和を加算した個数-1で割って分散を求めることがある。 これを不偏分散と言い、対して、前述のものを標本分散と言ったりする。


標準偏差

分散は元の値を2乗していて単位が変わり扱い難いため、分散にルートをかけることで、元に戻す。 一般的にσ(シグマ)で表す。 分散と同様に、標本標準偏差と不偏標準偏差が有る。 正規分布とみなす場合、 平均±標準偏差の範囲に値が有る確率は68.3%、 平均±標準偏差×2の範囲に値が有る確率は95.4%、 平均±標準偏差×3の範囲に値が有る確率は99.7%、となり、 分析の有意性や品質管理の尺度などに使われたりする。

※参考
因みに、各々の値の偏差を2乗では無く絶対値にして和を取り個数で割る方法も平均偏差という語で存在するが、 微分出来ない可能性など、その後の統計処理がし難い場合が多く、 また、例えば、(-6,6,-6,-6,6,6,6,-6)と(-11,1,11,-1,-1,11,-11,1)では、どちらも 合計と平均が0、平均偏差は6、で同じになってしまうなど、散らばりの差が際立たない為に、余り使われない。


偏差値

(10×偏差)÷標準偏差+50。

例えば、5教科の実力テスト(500点満点)で、
1回目の試験で、素点が355点、クラス平均が300点、標準偏差が55点、なら、
(10×(355-300))÷55+50=60
2回目の試験で、素点が375点、クラス平均が300点、標準偏差が75点、なら、
(10×(375-300))÷75+50=60
で、クラス平均が同じで素点が上がっても、ばらつき具合が違えば(2回目の方が散らばっている)、偏差値は、同じ。


中級編

外れ値

他の値よりも大きく外れている値。 これが著しいと統計が正しくされない場合が有る。


外れ値の検出(3シグマ法)

その値の有意性を調べる方法の一つ。 逆に言えば、その値を外れ値と判断する方法の一つ。 検定統計量=その値の偏差÷標準偏差 で求める。
正規分布とみなす場合、 検定統計量の絶対値が2以上ならばその値は分布の両端各々2.3%(合計4.6%)の部分に位置する。 また、3以上ならば分布の両端各々0.15%の部分と判断され、工業製品などは規格外と見做される。
※標準偏差の項を参照。


中央値

全ての値を昇順(小さい順)に並べ替えた、その中央にある値。 値の個数が偶数の場合は中央に近い2つの平均を取る。 例えば、値の個数が10個の場合は、5番目と6番目の平均。




相関係数

気温とアイスの売れ行き、など、 2つの項目についての関係をあらわす値。 1~-1の間の値をとり、 1に近づけば正の相関(一方の値が増えると他方の値も増える)、 -1に近づけば負の相関(一方の値が増えると他方の値は減る)、 0に近ければ、関係は無い、と判断する。

大学時代に、 比較言語学でマイコンを使ってプログラミングし、この計算をさせていたら、中世文学の友人に変人扱いされた。





[ 赤い玉の画像 ] 「キーワード辞典」の目次へ

[ 黒板消しとチョーク受けの画像 ]