「コーヒー好き度」を測れる尺度があったとして、日本人がどれ位コーヒー好きなのかを調べたい場合、日本に住むすべての人に尋ねて回る事はできません。
実際には、自分が通う学校や職場の人など、自分が調べられる範囲で調べていく事になります。このように、何かについて知りたいと思った時、本当に知りたいと思うものの一部を抽出して、それを調べる事で全体について考えていくといった事は、なじみのある考え方でしょう。
この時、検討しようとしている対象全体を「母集団」といい、母集団から抽出された測定値の集まりを「標本」といいます。また、母集団に関する(全数調査をしないかぎりは)未知の値を「母数」、標本から計算される変数を「標本統計量」と呼びます。標本統計量には、平均や分散、その他これらを使って作成された様々なものがあります。
そして、標本から得られる標本統計量によって母数、つまり母集団について推論をし、一般的な結論を下そうとすることを推測統計学と呼びます。
では、どうやって標本から得られる標本統計量から母数を推論するのでしょうか。
実は、標本の平均と母集団の平均、標本の標準偏差と母集団の標準偏差の関係性については、以下のことが分かっています。
- 標本の平均値と母集団の平均値は等しい。そのため、標本平均をそのまま母平均とすることができる。
- 標本の標準偏差は母集団の標準偏差とは等しくない。ただし、計算式によって不偏分散を求めることで、母集団の標準偏差とすることができる。
このようにして標本から得られた値は、母集団の平均や分散について“○○である”と1点の値によって推定しているので、点推定と呼ばれます。点推定で求められる母数は明確ですが、それが正しいかどうかは考慮されていません。
求められた値がどの程度正確なものなのかといった点も含めて母数を推定する場合には、区間推定という推定をおこないます。区間推定では、母集団の値を“ある確率で○○~○○の間にある”といった具合に幅を持って推定します。
区間推定をおこなうためには、標本統計量の確率分布を用います。標本統計量は、標本が変われば得られる値が異なる、確率的に変動する変数です。東京で得た標本の平均と、大阪で得た標本の平均は、似ている値になるかもしれませんが、まったく同じになることはないでしょう。手元にある測定値の集まりである標本から標本統計量を求めることではじめて“具体的な数値としての標本統計量”が得られるわけで、標本から標本統計量を求めるまでは標本統計量がどんな値になるのかは分かりません。この確率変数の分布が確率分布です。母数との関係において、標本は起こり得る可能性のある事象の1つがたまたま生じたものとして位置づけられます。
標本統計量の確率分布は「標本分布」と呼ばれ、様々なものが知られています。このうち、母集団の平均を推測するためにはt分布を用います。母集団からでたらめに標本を取り出し、その平均値を記録して標本を母集団に戻します。続けてまた標本を取り出して平均値を記録して元に戻します。仮にこういった手続きを無限に繰り返していくと、「標本の平均についての標本分布」が得られるはずです。個々の手続きで得られる値を統一の規格に標準化して、得られる値をt値、その確率分布をt分布と呼びます。
こういった確率分布がわかっていると、その分布の任意の範囲について、例えば「t値が1から-1の範囲には95%が入る」といった具合に、任意の範囲が全体の何%かを調べることができます。t分布は自由度によって形が変わるので手元にあるデータにあったt分布を参照する必要がありますが、実際に得られた平均と分散、t分布から得られるt値を用いると、例えば「母集団の平均は〇〇~〇〇の間に95%の確率である」ということがわかるようになるのです。
母集団の分散を推測するにはχ2分布を用います。母集団の分散を推測するために、母集団からでたらめに標本を取り出し、今度は平均ではなく、その分散を記録して標本を母集団に戻します。続けてまた標本を取り出して分散を記録して元に戻します。仮にこういった手続きを無限に繰り返していくと、「標本の分散についての標本分布」が得られるはずです。このような考えを基礎として得られた、分散に関する確率分布をχ2分布と呼び、母集団の分散に関する情報を推測する時に用いていきます。
さらに2つの母集団の分散の比を推測するには、F分布を用います。ある2つの母集団から1つずつ標本を取り出し、その分散の比を求めて各々の母集団に戻します。この手続きを仮に無限回おこなうと、「分散の比についての標本分布」が得られるはずです。このような考えを基礎として得られた、分散の比についての確率分布をF分布と呼び、母集団同士の分散の比に関する情報を推測する時に用いていきます。
参考文献
- 岩淵千明(編著) 1997 あなたもできるデータの処理と解析 福村出版
- 大村平 1980 統計解析のはなし 日科技連出版社
- 服部環・海保博之 1996 Q&A 心理データ解析 福村出版
- 山上暁・佐倉佐一(編著) 2003 新版 要説 心理統計法 北大路書房
- 山田剛史・村井潤一郎 2004 よくわかる心理統計 ミネルヴァ書房
< 研究