2変数の情報を整理する

2変数データを図表化する-散布図

1変数の情報を整理する場合には、例えば“体重”といった1つの変数について集められたデータを図や数値によって要約することができましたが、同じように“体重”と“身長”という2つの変数の関係についても考えていくことができます。

1つの変数に関して集められた情報を、棒グラフやヒストグラム、折れ線グラフや累積度分布曲線といった図にしてまとめて視覚的に特徴を把握しやすくしたのと同にように、2つの変数各々について集められた情報を図にしてまとめていくことで、その関係性を把握しやすくなります。2つの変数の関係を見る場合には、散布図を用います。

散布図は、直行するXとYの両軸に対して、X軸上にはXの値を、Y軸上にはYの値をとって、それぞれの位置から垂直、および水平にたどって両者の交わる位置にプロットしていくものです。例えば体重と身長という2つの変数について、横に伸びるX軸に体重のデータを、それに直角に交わるように縦に伸びるY軸に身長データを位置づけられるようにしたとします。そして、得られたデータのうち、体重が50kg、身長が160cmという人がいた場合、それぞれの軸にその数値を探し、X軸上にある体重の値から垂直に、Y軸上にある身長の値から水平にたどっていって、両者が交わる位置にプロットしていきます。こうして他のデータについても同じ作業を進めていくと、2変数に関して得られた図から、その変数間の関係性を見ていくことができます。

2変数データを数値で要約する-共分散、相関係数

1変数の場合、得られたデータを図表化してただ見やすくしただけにとどまらず、平均や標準偏差に要約したように、2変数の場合も数値に要約することができます。その指標となるのが、共分散と相関係数です。

共分散とは、平均からの偏差の積の平均です。具体的に説明すると、一人の人の体重と身長に関する情報が1,000個あったとして、体重の平均値が50、身長の平均値が150だったとします。次に一人ひとりのデータに目を向け、体重が45kg、身長が160cmというデータの場合には、それぞれの値をそれぞれの平均と比べます。この場合は、体重-5、身長が+10となりますが、この2つの平均からの偏差をかけあわせると-50になります。このような作業を、一人ひとりのデータについておこなうと、平均からの偏差の積が、1,000個得られます。そうして得られた1,000個の数値をすべて足して、1,000で割ると平均が得られます。こうして得られた数値が共分散の値になります。

共分散の値は、2つの変数間に、一方の値が大きくなればもう一方も大きくなるという正の相関関係があるとプラスの値に、一方の値が大きくなると逆に一方は小さくなるという負の相関関係があるとマイナスの値になります。

この共分散には、測定する単位に依存するという特徴があります。つまり、身長をcmで測定して得られた160という値と、mで測定して得られた1.6という値だと、実質的には同じデータにも関わらず、そこから計算して得られる共分散の値が変わってしまうのです。つまり、実質的には同じデータでも、mで測定した結果得られた共分散の値は100で、cmで測定した結果得られた共分散の値は10,000であるといったことにもなり得、数値が大きいことが、2つの変数の関係の強さを表しているのか、測定単位の影響なのかがわかりにくくなってしまいます。

共分散を2変数各々の標準偏差の積で割ることで、測定単位に依存しない値を算出することができます。これが相関係数です。体重と身長の例で説明を続ければ、体重のデータの標準偏差と、身長のデータの標準偏差をかけて得られた値で、上のようにして得られた共分散を割って出た値が相関係数となります。相関係数はどのようなデータであっても、-1から+1の範囲に収まるようになっており、+1に近づくほど強い正の相関を、-1に近づくほど強い負の相関を意味します。

相関係数を解釈する際には、擬似相関に注意が必要です。擬似相関とは2つの変数の間に、本当は相関がないにも関わらず、第3の変数の存在によってあらわれる見かけ上の相関のことです。例えば、体重とクイズの正解率という2つの変数について調べた結果、正の相関が見られたとします。しかし、体重が重いほどクイズに正答できるということが本当に言えるかと考えると、疑問が残ります。このような場合、ここで取り上げられていない年齢が双方へ影響しており、その結果体重とクイズの正答率に関係があるように見えているかもしれません。このように、扱っていない他の要因の影響がある可能性に目を向けておくことは、相関関係を適切に理解する上で重要になります。

関係性を見たい2つの変数が、“体重”と“身長”のように比率尺度であったり、もしくは間隔尺度の水準で測定されている場合には、上記のように散布図を用いて図表化し、相関係数を指標となる数値として、その関係の特徴を見ることができます。

しかし、尺度の水準によって制約があったように、変数が順序尺度や名義尺度の水準の場合には、他の方法を用いてその関係性を見ていきます。

関係性を見たい2つの変数が、“性別(男・女)”と“飲酒(あり・なし)”のように名義尺度の水準の場合には、散布図ではなくクロス集計表という表を用いて図表化し、相関係数ではなく連関係数やφ係数を指標となる数値として参照します。

また、順序尺度水準の関係性を見たい場合には、相関係数や連関係数でなく、順位相関係数を計算によって求め、それを参考とします。

参考文献

  • 岩淵千明(編著) 1997 あなたもできるデータの処理と解析 福村出版
  • 大村平 1980 統計解析のはなし 日科技連出版社
  • 服部環・海保博之 1996 Q&A 心理データ解析 福村出版
  • 山上暁・佐倉佐一(編著) 2003 新版 要説 心理統計法 北大路書房
  • 山田剛史・村井潤一郎 2004 よくわかる心理統計 ミネルヴァ書房

< 研究