1変数の情報を整理する

1変数データを図表化する-度数分布表

得られた情報もただそこにあるだけでは、その情報が持つ意味を読み取りにくいものです。例えば、手元に自分の住む地域の人々1,000人の体重の情報があったとして、40.3g、84.3g、65.2g…と羅列されたものが1,000個あっても、その情報にどんな特徴があるか分かりにくいものです。「40.3g、84.3g、65.2g…という情報が得られました」と説明されるよりも、「58.4kgの人の人数が20人いました」と説明されたり、「一番重たい人の体重は、134.2kgでした」と説明された方が分かりやすいと思います。このように、得られたデータは、特徴が分かりやすいように整理をしていく必要があります。

ある値を示したデータの個数を度数と呼びます。例えば、体重で、40kg以上50kg未満の人が100人いたとしたら、その度数は100です。また、度数を求める際には枠組みが必要です。40kg以上50kg未満に続けて、50kg以上60kg未満といった具合に段階に分けたり、40kg以上45kg未満といった段階に分けたりすることで、その段階の度数を求めることができますが、こういった段階は階級と呼ばれます。そして、これらをもとに度数がどういう分布になっているかを表にまとめたものを度数分布表といいます。

データは、度数分布表の他にも、棒グラフや折れ線グラフ、累積度分布曲線などであらわすこともでき、そうすることで視覚的に特徴が明確になります。

1変数データを数値で要約する-代表値、散布度

図や表によって、得られた情報をまとめることで特徴をつかむこともできますが、それにとどまらず得られた情報を1つの値に要約してあらわすこともできます。データ全体を代表する1つの値を代表値といいます。データは様々な観点から要約することができ、代表値にも平均値や中央値、最頻値といった様々なものがあります。

平均値とは、データの全ての値をたして、データの個数で割った値です。

中央値とは、データを大きさの順に並べたときに丁度真ん中に来る値です。

最頻値とは、最も度数の多いデータの値です。

例えば10,20,40,60,70,70,80というデータの場合、平均値は50、中央値は60、最頻値は70となります。

度数分布の代表的位置である代表値だけでは、度数分布の特徴を十分に記述しきれません。

例えば、5,10,30,60,70,70,105というデータは、上の代表値の話の際に用いたデータと異なりますが、代表値は、平均値は50、中央値は60、最頻値は70と、先ほどと同じ値になります。このように、度数の分布を数値で適切に記述する場合、データのばらつきにも注意する必要があります。

ばらつきの程度を示すものが散布度です。どのような特徴に目をむけてばらつきを見ていくかによって、散布度にも、範囲や四分位偏差、標準偏差など様々なものがあります。

範囲とは、度数分布の両端、すなわち最大の観測値と最小の観測値との隔たりを示すものです。

四分位偏差とは、代表値として中央値を求めたときに用いる、中央値から全体の25%(4分の1)の観測値が集まる測定値までの範囲を示すものです。

標準偏差とは、代表値を平均値としたときの分布の散らばりの大きさを示す指標で、各観測値が平均からどの程度はなれているかを表現するものです。

標準偏差は、「“データ全体の平均値と、各々のデータの値との差を2乗して得られた値”をデータの数だけ足していき、それをデータの個数で割った値」である分散の、ルートを取ったものです。

噛み砕いて説明してくと、そもそも偏差とは、データの値が平均からどれだけずれているかをあらわすもので、データの値から平均をひくことで計算できます。手元に1,000個のデータがあるならば1,000個分の偏差を計算して得られた値を全て足し、データの個数1,000で割ったとすれば、ばらつきの平均がわかるはずです。

しかし、偏差は合計すると0になってしまうという特徴があります。例えば、上で見たように、体重について10,20,40,60,70,70,80というデータがあった場合、平均値は50ですが、各々の値から平均を引くと、-40,-30,-10,+10,+20,+20,+30となり、これらを全てあわせると0になってしまいます。-40であっても+40であっても平均と比べれば40違うというずれの程度をあらわしているにも関わらず、+と-の影響のために合計すると0になって、数値上ではずれがなくなってしまうのです。そこで、この+-の影響を取り除くために、その値を2乗します。2乗して+に+をかけると+、-に-をかけると+になるため、+-の影響を取り除いて、ずれの合計を計算することができるのです。こうして得られた値は、分散と呼ばれます。

しかし、分散で2乗した分はもとに戻す必要があり、そのためにルートを取る必要があります。こうして得られた値を標準偏差と呼びます。

度数分布表と代表値や散布度などを組み合わせたものは、分布としてまとめて表現することができます。得られたデータを分布として表現すると、データの特徴を代表値や散布度といった正確な指標で把握できると同時に、中心的な位置や広がり具合、形状などを視覚的に理解することもできるようになります。

分布には様々な形があり、代表値と散布度、分布の形の3つの要素から構成されています。中でも、多くの分布は、分布の真ん中あたりに多くのデータが集まり、中心から離れていくとデータが少なくなる、左右対称の釣り鐘型のような形になります。このような分布は正規分布と呼ばれ、平均と分散によってN(平均、分散)とあらわされます。NはNormal distributionの頭文字です。正規分布では、平均±1標準偏差の間に全体の68.3%が含まれているといった特徴があります。

得られたデータを正規分布によって表現するだけならこれでも十分ですが、さまざまにある分布を、統一の規格にあわせて変換すると、任意の範囲の全体に対する割合を簡単に求めることができるようになります。

正規分布を統一の規格に変換することを標準化といい、標準化された正規分布は標準正規分布と呼びます。「データ全体の平均値」と「1つのデータの値」の差を標準偏差で割ることで得られる、標準得点という標準化された値に基づいた分布が標準正規分布です。

標準正規分布は、平均、中央値、最頻値がすべて0になっている分布で、0を境に標準正規分布の右側の部分に全体の50%、左側の部分に全体の50%が入るといった特徴があります。

参考文献

  • 岩淵千明(編著) 1997 あなたもできるデータの処理と解析 福村出版
  • 大村平 1980 統計解析のはなし 日科技連出版社
  • 服部環・海保博之 1996 Q&A 心理データ解析 福村出版
  • 山上暁・佐倉佐一(編著) 2003 新版 要説 心理統計法 北大路書房
  • 山田剛史・村井潤一郎 2004 よくわかる心理統計 ミネルヴァ書房

< 研究