検定する

検定の手順

例えば、東京の人は大阪の人よりもコーヒーが好きかどうかを知りたい、言い換えるならばコーヒー好きの度合いは東京と大阪で差があるかどうかを確かめたい場合、東京と大阪に住む全ての人に尋ねて回る事はできません。

その際、推定と同じく確率分布を用いることで、違いがあるかどうかを検討することもできます。

変数間における相違や関連性といった関係性について検討する際におこなう統計処理は統計的検定と呼ばれます。統計的検定は、仮説を設定して、実際に得られたデータからその仮説を検討していきます。具体的には、以下のような手順で進められます。

  1. 帰無仮説を設定する
  2. 検定に用いる標本統計量を選択する
  3. 棄却域と採択域を設定する
  4. 実際に手元にあるデータから標本統計量を算出する
  5. 帰無仮説が間違っているか正しいかの判断をする

帰無仮説の設定する

統計的検定では、まず主張したい事に関して仮説を立てます。上の例で言えば、「コーヒー好きの度合いは東京と大阪で差がある」です。これを実験仮説と呼びます。そして、この実験仮説を証明するために、「コーヒー好きの度合いは東京と大阪で差がない」という仮説を否定することで、「コーヒー好きの度合いは東京と大阪で差がある」とする方法をとります。

仮説が真であることを証明するにはすべての事象を検討しなければならないので困難を極めますが、仮説が誤りであることを証明するのは例外を探せばよく、証明が可能なのでこういった形がとられます。否定されることを前提としてたてられる仮説を帰無仮説、帰無仮説と背反する仮説を対立仮説と呼びます。

標本から母集団を推論する際には、標本が母集団から偏って選ばれないように注意する必要があります。コーヒーの例でいえば、東京のある地域ではコーヒーブームが到来しており、その地域で標本を選んだ場合には大阪よりも東京の人の方がコーヒーが好きというデータが集まるかもしれません。しかし、それで得られたデータはその地域特有のものであり、実情を適切に反映しているとは言えそうにありません。

そのため、母集団から標本が偏らないように、作為的に選ばれないように、言い換えるならばたまたま選ばれたものであるように、無作為抽出されるように配慮しなければなりません。

検定に用いる標本統計量や検定方法を選択する

仮説を設定した後は、検定の目的や変数の特性によって、用いる標本統計量を選択します。検定方法を決めるポイントはいくつかあります。1つ目は、数値データのレベルが質的データなのか量的データなのかといった点です。2つ目は、検定しようとしている変数の数がいくつかという点です。3つ目は、検定しようとする変数間に対応があるかどうかという点です。これらをあらかじめ想定しておき、これに合った情報を得られるような設定で標本を集めていきます。

棄却域と採択域の設定する

標本統計量の確率分布は標本分布と呼ばれ、様々なものが知られています。検定に用いる標本統計量の確率分布が分かっていれば、実際に得られた標本から標本統計量を計算した時、その値がどのくらいの確率で得られる値なのかが分かります。帰無仮説における標本分布は帰無分布と呼ばれます。

そこで、どの程度確率の低い結果が出たときに、帰無仮説を棄却し対立仮説を採択するか、その基準を決めます。その基準となるのが有意水準で、αであらわされます。有意水準は、絶対的にこれといった値は決められてはいませんが、習慣的に5%や1%に設定されることが多いです。

帰無分布の裾野の部分で、その確率がαとなる領域のことを棄却域とよび、それ以外の領域を採択域と呼びます。検定統計量の標本分布の両裾の部分を棄却域とする検定を両側検定といい、右または左の片裾だけを棄却域とする検定を片側検定と呼びます。ある仮説の検定を、両側検定、片側検定どちらでおこなうかは、どんな対立仮説に関心があるかによって決まります。

標本統計量を算出し、仮説に対する判断をおこなう

こういったお膳立てをしたうえで、実際に標本から標本統計量を算出し、帰無仮説が間違っているか、正しいかの判断を行ないます。

実際に標本から計算された検定統計量の値が棄却域に入ったら、それは確率的に非常に小さいにも関わらずそういった値が得られたということで、帰無仮説を棄却します。一方で、採択域に入った場合は結論を保留します。

この仮説に対する判断は、有意水準をもとに確率的におこなわれるので判断を誤る可能性があります。判断を誤る可能性は2種類あり、1つは「帰無仮説が正しいとき、それにも関わらず棄却してしまう」誤りで、これを第1種の誤りといいます。もう1つは「帰無仮説が正しくないにも関わらず、棄却せずに採択してしまう」誤りで、第2種の誤りといいます。「コーヒー好きの度合いは東京と大阪で差がない」という帰無仮説が本当は正しいのに棄却してしまった場合、第1種の誤りを犯したことになります。一方で、「コーヒー好きの度合いは東京と大阪で差がない」という帰無仮説が本当は間違っているのに、棄却せずに採択してしまった場合、第2種の誤りを犯したことになります。

第1種の誤りを犯す確率は有意水準と等しく、αであらわされます。第2種の誤りを犯す確率はβであらわされます。そして、それぞれの1からそれぞれの確率を引いたものが、正しい決定をおこなえる確率であり、1-β、つまり間違っている帰無仮説を正しく棄却できる確率を検定力といいます。

参考文献

  • 池田郁男 2013 統計検定を理解せずに使っている人のためにⅠ 化学と生物51(5) p.318-525
  • 池田郁男 2013 統計検定を理解せずに使っている人のためにⅡ 化学と生物51(6) p.408-417
  • 池田郁男 2013 統計検定を理解せずに使っている人のためにⅢ 化学と生物51(7) p.408-417
  • 岩淵千明(編著) 1997 あなたもできるデータの処理と解析 福村出版
  • 大村平 1980 統計解析のはなし 日科技連出版社
  • 服部環・海保博之 1996 Q&A 心理データ解析 福村出版
  • 山上暁・佐倉佐一(編著) 2003 新版 要説 心理統計法 北大路書房
  • 山田剛史・村井潤一郎 2004 よくわかる心理統計 ミネルヴァ書房

< 研究