3変数以上の情報を整理する

3つ以上の変数を同時に取り扱う統計解析を、多変量解析と呼びます。多変量解析の方法は様々なものがあり、変数を測定した尺度水準や、目的によって使用するものが異なります。

様々な多変量解析は、大きく「ひとつの変数を、複数の変数で予測・説明・判別する」ものと、「複数の変数間の関係性を探る」ものに分類できます。言い換えるならば、前者は独立変数と従属変数の因果関係が想定されているもので、重回帰分析や判別分析、数量化Ⅰ類や数量化Ⅱ類などが含まれます。また後者は因果関係が想定されていないもので、因子分析や数量化Ⅲ類などが含まれます。

重回帰分析

因果関係の分析には回帰分析を用います。2つの変数XとYの相関関係を視覚的に概観するために、直交するXとYの両軸を描き、X軸上にはXの値を、Y軸上にはYの値を取り、それぞれの位置から垂直および水平にたどって、両者の交わる位置にプロットした散布図を作成したとします。こうしてつくられた散布図上にプロットされた各々の点からの距離の二乗和が最小になるように直線Y=a+bXを引きます。

この直線を用いると、あるXの値から実際のYの値を近似的に推測することができます。Xの値からYの値を推測することをXのYへの回帰といい、推測に用いられる直線を回帰直線といいます。また、XからYを推測する場合、Xを説明変数(独立変数)、Yを基準変数(従属変数)と呼びます。この、説明変数と基準変数がともに1つの場合を単回帰分析と呼びます。

回帰式がYの値を推測するのにどれくらい適しているかを判断する場合、XとYの相関係数rの二乗がその指標となります。このr2を決定係数と呼び、1に近い程当てはまりが良い事を意味します。また、F値を用いて回帰式の有意性を検定する事もでき、この場合はF値が大きいほど回帰式は有意になります。

上記のような単回帰分析に対して、複数の説明変数から基準変数を推測するような場合に、重回帰分析が用いられます。

重回帰分析では、説明変数の基準変数に対する影響の大きさを表す、標準偏回帰係数βが得られます。

また、重回帰分析では、重回帰式の適合度を示す指標として重決定係数R2と、単回帰分析同様F値が用いられます。重決定係数は、基準変数Yとその推定値Yの相関関係で、説明変数全体が基準変数とどれくらい関連しているかを表す重相関係数Rの2乗です。

R2の値は説明変数が増えるにつれて大きくなる性質があるため、説明変数の数を考慮して値を修正した調整済み重決定係数R2aという指標もあります。

説明変数と基準変数との間に一定の相関があり、加えて説明変数同士の間に非常に高い相関がある場合には、多重共線性と呼ばれる問題が生じます。この場合、標準偏回帰係数がマイナスの値をとったり1を超えたりすることがあり、高い相関をもつ説明変数のいずれかを取り除くことが必要になります。

因子分析

因子分析とは、変数間の相関関係を分析して、因子と呼ばれる少数の仮説的潜在的変数を想定し、その因子によって変数間の関係を説明する技法です。

例えば、学力について考えた場合、「国語」、「算数」、「理科」、「社会」、「英語」各々の能力には、「文系能力」や「理系能力」といった潜在的に関連している要素がありそうです。

因子とは、種々の検査や質問紙の項目、あるいは測定値や観測などの変数を説明するために仮定された、直接には観察できない「潜在変数」であり、一種の仮説構成体です。因子分析は、テストや質問項目などの変数が多すぎて、全体の意味をつかみにくいときに、その本質的な情報を失わないようにしながら、少数の分かりやすい変数(因子)に集約し整理していく方法です。

因子分析をおこなうと、各々の変数から想定される共通因子(潜在変数)と、それが各々の変数にどの程度の強さで影響しているかを示す因子パターン(因子負荷量)、また共通因子では説明しきれない各変数に独自の成分である独自因子(残差成分)などを見ることができます。

因子分析には、集められたデータが論理的に仮説された構造にうまくフィットするかを検証するための確認的因子分析と、因子を探索的に見出すための探索的因子分析があり、因子分析とした場合には一般的に後者を指します。ここでは、以下特別な記載がない限り、探索的因子分析を因子分析として、話を進めていきます。

因子分析では、得られたデータから任意の方法によって共通性を推定することを通して因子を抽出し、それを基に因子軸を任意に回転させ因子負荷量を求めていきます。

共通性とは、共通因子によって説明できる分散の合計です。これによって、「国語」や「算数」といった各項目がどの程度の共通性と独自性を持ち合わせているかがわかります。

また、因子を抽出する過程で、各成分によって説明できる分散の合計が固有値として得られ、これを基に因子数を決めていきます。

因子数が決まれば、それに基づいて因子パターンを推測します。因子パターンは、各因子の各観測変数への影響力である因子負荷量を行列で示したものです。これは-1~+1の範囲の値をとり、0に近づくほど当該観測変数と当該因子とは無関係ということを意味します。

ここで得られた結果をより分かりやすくするために、因子軸を回転させます。

因子負荷量を因子Ⅰと因子Ⅱの2次元空間にプロットし、ここに直行した2軸を加えて原点をそのままに回転させます。このように回転しても、それぞれの空間的関係や距離などは変化しないため、より因子の意味が分かりやすいように操作することができるのです。

因子軸を直交させたまま回転させる方法は、因子の直交回転といわれます。これに対して、軸を1本ずつ自由に回転させることもでき、その場合には軸が斜めに交わるようになるため、因子の斜交回転と呼びます。

軸を直交に固定したままで適当な位置を探す直交回転よりも、軸を各々適当に操作できる斜交回転の方が柔軟性が高く、単純構造へ近づきます。単純構造とは各因子が一部の測定変数のみに影響を与え、しかも測定変数が1つの因子のみから影響を受けるようになった状態です。

直交回転では因子同士の相関が無い事が想定されていますが、斜交回転では軸が直交ではないため因子間に相関があることが想定されます。そのため、必ず相関が算出されます。また、直交解では一致している各因子負荷を要素とする因子パターンと、各因子と各観測変数の相関係数を要素とする因子構造が、斜交解では軸が斜めに交わったことで一致しなくなるため、因子パターンだけでなく、因子構造も算出されます。

因子分析の結果は、分析にどのような変数を入れるかによって変わり、不適切な項目が多くなると結果が安定しません。そのため、得られた結果を吟味しつつ手を加え、より安定した適切な結果を得られるように分析を重ねていきます。

こうして最終的に得られた因子が何を意味しているかを考え、因子に適切な名前をつけていきます。

参考文献

  • 岩淵千明(編著) 1997 あなたもできるデータの処理と解析 福村出版
  • 大村平 1980 統計解析のはなし 日科技連出版社
  • 服部環・海保博之 1996 Q&A 心理データ解析 福村出版
  • 山上暁・佐倉佐一(編著) 2003 新版 要説 心理統計法 北大路書房
  • 山田剛史・村井潤一郎 2004 よくわかる心理統計 ミネルヴァ書房

< 研究