情報の特徴を理解する

変数・尺度

私たちの身のまわりには様々な数値があります。長さや重量をあらわす10という数値、気温を表す10という数値、成績の順位をあらわす10という数値。これらは同じ10という数値でも各々が持つ特徴は異なっているのです。

研究は、一言でいうなら、情報を収集し、それを分析するという流れで進みますが、情報をどう収集するかは、どう分析するかと密接に関わってきます。

例えば、近所にある2つのケーキ屋さんの情報を集めて、比べたいと思ったとします。比較したいものが“ショートケーキ”の大きさだった場合、“チーズケーキ”の大きさの情報をいくら収集しても、“ショートケーキ”の大きさは分析できないでしょう。同じように、例えショートケーキの情報であっても、“スポンジのきめの細かさ”や、“イチゴの赤さ”のような情報を集めても、ショートケーキの“大きさ”は分析できません。分析したいものを意識してそれに見合った情報を収集していくことが重要になるのです。

研究には、情報を数量的に処理して進めていく方法がありますが、似たようなことが数値についても言えます。数量的に処理を進めていくためには、数値の特徴をあらかじめおさえておく必要があります。

質的変数、量的変数

情報を収集する際、個人や状況によって値が変わるものは、変数と呼ばれます。上の例でいえば、ケーキの大きさや、スポンジのきめの細かさ、イチゴの赤さなどです。他にも、ケーキとの関連だけでもイチゴの数やクリームの量、甘さなどの変数が考えられるでしょう。このように身の回りに数多くある変数は、質的変数と量的変数とに分けることができます。

質的変数とは、人や物や事象を分類することを目的とした変数です。例えば、チーズケーキやショートケーキ、チョコレートケーキなどのケーキの種類という変数は質的変数です。ケーキから離れて例をあげれば、血液型や、車の種類、食事のときに箸を使うか使わないか、といった変数は質的変数になります。挙げられた例を見れば分かるように、質的変数はそこに含まれる情報間に大小関係や順序関係がありません。

この変数に含まれる情報に数字を割り振ることもできますが、その際には混乱しないように注意が必要です。例えば、「チーズケーキ」と打ち込むよりも、「1」と数字を打ち込んだ方が、文字数が少なく読み書きの労力も少ないので、「チーズケーキ」に「1」という数字を割り当ててその代わりにすることもできます。同じように「ショートケーキ」に「2」を割り当てることもできます。しかし、この数字はあくまでも“ケーキの種類”をあらわすものです。一般的に私たちが想像する数字は1の次には2がきますし、5よりも10の方が大きいもので、そこには大小関係や順序関係が存在します。しかし、ここで挙げたケーキの種類をあらわす数字には、1よりも2が大きいとか、1の次に2が来るなどの意味合いは含まれていない、ケーキの種類の言い換えに過ぎないことに注意が必要です。「チーズケーキ」に「1」を割り当てるのでなく、「ショートケーキ」に「1」を割り当てることもできるのです。その数字に何を割り当てたかで、その数字の意味があらわすものはかわっていきます。

一方で、量的変数とは、量の大小が問題になる変数です。イチゴの数やクリームの重量という変数は量的変数ですし、ケーキ以外でいえば、身長や体重、温度や速度などが量的変数にあたります。質的変数は、そこに含まれる異なる値同士は同列で大小関係がありませんでしたが、量的変数に含まれる値には大小関係が存在します。

例えば、“ケーキの重さ”という変数に含まれる値であれば、0gよりも100gの方が大きいですし、“イチゴの数”という変数に含まれる値であれば、1個よりも2個のほうが大きいです。

また、大きさでいえば、「小さい」、「普通」、「大きい」にそれぞれ「1」、「2」、「3」と数字を割り振ることもできますが、この場合には、この数字の間には大小関係があるので、量的変数となります。

このように異なる値同士を同列として扱えるか、その間に大小関係が存在するか、という点に質的変数と量的変数の違いがあらわれます。

さらに、量的変数は、離散変数と連続変数とに分けることもできます。連続変数とは精密に測りさえすればいくらでも細かく分類できる性質のものです。例えば、ケーキの重さで言えば0.0000…g、0.000…1g、0.000…2gといった具合に数字が連続していきますが、そういったものを言います。一方で離散変数とは、それぞれの値の間が離れていてそれ以上は細かく測れないものです。例えば、イチゴの数は1個、2個、3個と数え、1.234個といった値はとりえませんが、そういった具合のものです。

ただし、この離散と連続は理論上のことで、実際的には、離散変数であるイチゴの数を「このショートケーキには5.5個分のイチゴが使われている」と連続変数として扱ったり、連続変数である100.0…1と100.0…2gのケーキを、両方とも99gでも101gでもなく100gと離散変数として扱ったりするように、両者は交換的に使用されます。

それらの変数が連続変数として扱われるか、離散変数として扱われるかは日常生活や研究での便宜上のものなので、見かけの値よりも、その数値の持っている内容や意味から判断される必要があります。

比率尺度、間隔尺度、順序尺度、名義尺度

こういった変数は、それをどのようにはかるかで、そこから得られる情報がかわります。例えば、「ケーキの重さ」という変数を、「g」によってはかるのか、「小さい」、「普通」、「大きい」という程度によってはかるのかで、得られる情報の内容は違うでしょう。このように、測定するときに使うものさしのことを尺度と呼び、その尺度ごとに特徴があります。

尺度はその性質から4つの尺度水準に分類することもできます。その4つとは、比率尺度(比尺度)、間隔尺度、順序尺度、名義尺度です。

比率尺度とは、数値の順序が決まっており、それら数値間の間隔が等しく、また数値の0が「何もない」ことを示す尺度です。重さや時間がこれにあたります。数値間の間隔が等しく、0という絶対的な原点があるので、足し算、引き算、掛け算、割り算という四則演算が可能です。

間隔尺度とは、数値の順序が決まっており、それらの数値間の間隔が等しいものの、数値が0であってもそれが存在しないということを意味しない尺度です。気温(摂氏)や西暦がこれにあたります。数値間の間隔が等しいので、足し算と引き算はできますが、絶対的な原点がないので、掛け算、割り算はできません。

順序尺度とは、数値の順序は決まっているものの、それら数値間の間隔が等しくはない尺度です。成績の順位などがこれにあたります。順序性が確保さえているので、大小関係の比較はできますが、数値の間隔が一定ではないので足し算、引き算はできません。

名義尺度とは、順序性や等間隔性はなく、分類すること以上の意味を持たない尺度です。この尺度の数値は分類を目的としているものなので、それ以上の意味は持ちません。

このように各々の尺度には、可能な計算や可能な変換が決まっています。ショートケーキの大きさを調べるために、“何グラムか”という比率尺度の水準の情報を扱いたいと思っているのに、ショートケーキが“大きいか、中くらいか、小さいか”といった枠組みで情報を収集してしまうと、掛け算や割り算を用いた分析ができなくなってしまうように、こういった尺度の違いを頭に置き、分析したいものにあった情報を、情報収集の段階で考慮して集めていくことが必要になります。

参考文献

  • 山田剛史・村井潤一郎 2004 よくわかる心理統計 ミネルヴァ書房
  • 山上暁・倉智佐一 2003 新版 要説 心理統計法 北大路書房