統計を取ろうとする対象の全て。 例えば、「東京都民」が統計の対象であれば、東京都民全員。 「○○模試受検者」「○○渋谷店の購入者」など、 母集団全体を正確に把握出来るものや、 「○○国の居住者全員」「よく渋谷に遊びに来ている人」などの様に、 母集団全体を把握する事が困難なものも有る。
母集団や標本(後述)を構成する一つ一つのデータ。 一般的に、母集団の要素数をN、標本の要素数をnであらわす。
母集団の要素全てを把握している場合に得られる、母集団の確率分布。 此処から、母平均(μ)、母分散(σ2)、母標準偏差(σ)、 母比率、母中央値、母最頻値、母最大値...などを導き出す。 詳細は後述。
母集団が、例えば「よく渋谷に遊びに来ている人」など、全体に対して調査をするのは困難な場合に、 その中から無作為に取り出した小さな集団。 ただし、それなりの数で、母集団と同じ性質(性別、年齢、などのバランス)を同程度に持つ集団でなければ、 意味がない。
母集団から無作為に標本を取り出すこと。
コイントスの表裏やサイコロの目など、結果が偶発的な事柄に対し、実験や観測を試みること。 また、同一の条件でそれを何度も繰り返すこと。
1回の抽出や試行で母集団から取り出した要素の数。標本の大きさ。 一般的には、 \(n\) であらわす。 「よく渋谷に遊びに来ている人」を渋谷駅で100人に訊いたなら、サンプルサイズ \(n\) は100。
抽出や試行を行った回数。群数。 「よく渋谷に遊びに来ている人」に訊く調査を渋谷駅で100人ずつ10箇所(総数1,000人)で行ったなら、 サンプルサイズ100、サンプル数10。
母集団や1回の標本の項目、或いは試行の結果の、全ての要素の値を加算したもの。
サンプルサイズ \(n\) 個の各々の要素の値を、\( x_1 \) ~ \( x_n \) とすると、
\(\displaystyle \sum_{i=1}^n x_i\)
合計を、加算した個数(要素の数)で割ったもの。
\(\frac{\Large 合計}{\Large 要素の数} \)
=
\(\frac{\displaystyle \sum_{i=1}^n x_i}{\Huge{ n }} \)
平均のうち、母集団の数値的な或る項目の合計を、加算した個数(要素の数)で割ったもの。
平均のうち、特に、母集団から抽出した標本の数値的な或る項目の合計を、 加算した個数で割ったものの呼び方。 計算方法が変わる訳では無いが、意味合いが微妙に変わる。
母集団から標本として \(n\) 個を抽出しその標本平均を算出することを、何度も繰り返すことで得られる分布。 母集団の中から標本n個を抽出することを、その全ての組み合わせで行うのが理想であるが、 それは困難な場合も有るので、その時は、「充分に多い回数」で繰り返す事になる。 「充分に多い回数」で繰り返す場合、それは多くは正規分布になる。 「正規分布」の項を参照。
或る要素の値と平均との差。各々の値から平均を引く。
要素の値が平均よりも大きければプラスの値、小さければマイナスの値になる。
要素の値を \( x_i \)、平均を\(\bar{x} \)とすると、\(x_i - \bar{x} \)
偏差では、各々の値と平均との距離は判るが、全体の散らばり具合は判らない。
かといって、各々の偏差を全て足すと、プラスの値とマイナスの値とで打ち消し合って0になってしまう。
それでは困るので、各々の偏差を2乗(平方)して全てをプラスの値にした上で加算(和)することで、
全体の散らばり具合を見る。
要素の各々の値を\( x_i \)、平均を\(\bar{x} \)とすると、\(\displaystyle \sum_{i=1}^n ( x_i - \bar{x} )^2 \)
偏差平方和を、加算した個数で割ったもの。
統計の際の散らばりの目安として、よく使われる。
一般的には、母分散は σ2 であらわすが、これは標準偏差と関係する。
\(\frac{\displaystyle \sum_{i=1}^n ( x_i - \bar{x} )^2 }{\Huge{ n }} \)
分散のうち、特に、母集団の偏差平方和を、加算した個数で割ったものの呼び方。
分散のうち、特に、標本の偏差平方和を、加算した個数で割ったものの呼び方。
標本の分散から母集団の分散を推定するためのもの。
母集団ではなく標本によって分散を求めた場合、
何故か、母集団によって求めた値よりも微妙に小さくなる傾向があるため、
偏差平方和を加算した個数-1で割って分散を求めることがある。
これを、特に、不偏分散と言う。
不偏分散であることを明示する際は s2 を使う。
\(\frac{\displaystyle \sum_{i=1}^n ( x_i - \bar{x} )^2 }{\Huge{ n - 1}} \)
分散は元の値を2乗していて単位が変わり扱い難いため、分散にルートをかけることで、元に戻す。
母分散の標準偏差は、一般的にσ(シグマ)で表す。
\( \sqrt{ \frac{\displaystyle \sum_{i=1}^n ( x_i - \bar{x} )^2 }{\Huge{ n }}} \)
分散と同様に、母標準偏差、標本標準偏差、不偏標準偏差が有るが、
不偏標準偏差は、標本標準偏差から母標準偏差を推定するもの(=不偏な・標準偏差)であって、
不偏分散の平方根(=不偏分散の・標準偏差)では無い。
各々の要素の値の偏差を2乗では無く 絶対値にして和を取り個数で割る方法も平均偏差という語で存在するが、 微分出来ない可能性など、その後の統計処理がし難い場合が多く、 また、例えば、(-6,6,-6,-6,6,6,6,-6)と(-11,1,11,-1,-1,11,-11,1)では、どちらも 合計と平均が0、平均偏差は6、で同じになってしまうなど、 散らばりの差が際立たない為に、殆ど使われない。
本来は、standard error(SE)で、
母集団から或るサンプルサイズの標本を抽出する際に、選ぶ組み合わせに依って数値(統計量)がどの程度ばらつくかを、
全ての組み合わせのサンプル数についての標準偏差で表したものをいう。
しかし、それは不可能な場合が多いので、
標本平均の標準誤差(standard error of the mean; SEM)のことを普通は指す。
標準誤差SE =
\( \frac{\sigma}{ \sqrt{n}} \) または、\( \frac{s}{\sqrt{n}} \)
(10×偏差)÷標準偏差+50。
例えば、5教科の実力テスト(500点満点)で、
1回目の試験で、素点が355点、クラス平均が300点、標準偏差が55点、なら、
(10×(355-300))÷55+50=60
2回目の試験で、素点が375点、クラス平均が300点、標準偏差が75点、なら、
(10×(375-300))÷75+50=60
で、クラス平均が同じで素点が上がっても、ばらつき具合が違えば(2回目の方が散らばっている)、偏差値は、同じ。
他の値よりも大きく外れている値。 これが著しいと統計が正しくされない場合が有る。 例えば、フィギュアスケートの採点で、5人の審査員のうち最高点と最低点を除いた 3人の審査員の合計点を得点としているのは、この外れ値に対応するものである。
全ての値を昇順(小さい順)に並べ替えた、その中央にある値。 値の個数が偶数の場合は中央に近い2つの平均を取る。 例えば、値の個数が10個の場合は、5番目と6番目の平均値。
統計上の検定を行う際に
母集団に関するある仮説が統計学的に成り立つか否か(偶然では無く有意か)を、
標本のデータを用いて判断するための、目安。
基本、5%と1%が、よく使われる。
検定では、累積確率をP値という。
検定に関する詳細は、別の項目で。
2つの事象について、相互に影響を与え合っているか、の、関係。
2つの事象について、相互に影響を与え合っているか、の、関係をあらわす値。 1~-1の間の値をとり、 1に近づけば正の相関(一方の値が増えると他方の値も増える)、 -1に近づけば負の相関(一方の値が増えると他方の値は減る)、 0に近ければ、関係は無い、と判断する。
大学時代に、 比較言語学でマイコンを使ってプログラミングし、この計算をさせていたら、 中世文学の友人に変人扱いされた。
2つの事象について、片方の変化が原因となって他方に影響を与えているか、の、関係。