データ分析の書記録

読んだ本の内容って忘れてしまいますよね。このブログは分析関係の読んだ本、勉強したことの記録です。

調査観察データの統計科学 4章:共変量の選択

はじめに

前回の話 shinomiya-note.hatenablog.com

4.2 共変量の選択

共変量の候補になる変数を改めて確認します。
候補は左上の1例です。

変数の関係性

f:id:shinomiya_note:20200402160009p:plain:w500

※ 変数の矢印は時間的関係性も含む

代理変数の利用

重要な共変量の存在があるのは分かっているが観測できない場合、代理変数を用いることで対応します。

代理変数が中間変数にもなっている場合は?

f:id:shinomiya_note:20200304173811p:plain:w300

「入学時プログラム選択の効果として3年次成績」への影響を確認したいとします。共変量として「入学前能力」を調整したいが、観測できていないため代理変数で「2年次成績」を用いるとします。しかし2年次成績は入学時プログラム選択の効果になっているため、中間変数にもなっています。
➡ 過小評価になるが、共変量の影響を全く除かないよりマシ

よって代理変数が中間変数の場合は共変量として用います

探索的共変量選択

共変量の候補からどう選択するべきか?

  • 重要な共変量は、割り当てZより結果変数Yに対し関係が強い変数

    • 傾向スコアは割り当てZに関係する変数でないと精度が高くならないのでは? → 割り当てZをうまく説明するような共変量選択では調整が上手く行えないケースがある
    • IPW定量やDR推定量は傾向スコア補正の推定値だが、「Zに関係性せずYに関係する変数」を用いた傾向スコアの方が推定値が確かになるとのこと
    • あくまで共変量xを用いて目的変数を説明できることが大事で、実際に共変量を一次元に圧縮した傾向スコアでも同様
  • 複数の変数を投入すると、傾向スコアの回帰を行う時、共変量間の多重共線性が問題になるのでは?

    • サンプルサイズが十分あれば、偏回帰係数の分散は小さくなるから特に問題はない

つまり共変量は…
Yと関係があると思われる変数(ただし中間変数ではない)はなるべく多く投入することが重要


4.3 強く無視できる割り当て条件のチェック

  • ① e:z~xの傾向スコアモデルの精度を確認する(疑似決定係数やc統計量)

    • c統計量はランダムに選んだ値の異なる(0と1の)2つのペアの内、一方のカテゴリーを正しく同定できる確率(0.8以上が目標)
    • c統計量=(n_c+0.5(t-n_c-n_d))/t t=ペア総数、nc=一致したペア数、nd=一致しないペア数
  • ② 共変量そのものの調整

    • 傾向スコアを用いた共変量調整の場合には、傾向スコアで調整した共変量の群間さが消失するはず
  • ③ 理論の精緻化(次説明)

    • 多重反応:英語教育プログラムzが英語の点数yだけでなく、理科の点数にも因果効果があるなら、隠れた共変量がいる可能性
    • 順序のある多重処置:説明変数が順序変数の場合、目的変数yも順序通りになるはず。ならなかったら隠れた共変量がいる可能性
    • 多重対照群:喫煙の有無による肺がん発症の効果を考える。「喫煙しない人」は実際「過去吸ってた」「一度もない」もいる。対照群をさらにこれらで分けても本来対照群間の因果効果の差はないはず。あれば隠れた共変量がいる可能性

実際の手順例

  1. yと関係する共変量候補 xで重回帰して変数をいくつかに絞る(重相関係数の大きさで)
  2. zのロジスティック回帰を1.で絞った候補xを一個ずついれて疑似決定係数の指標から変数を選択
  3. e:z~xのロジスティック回帰でc統計量をみて変数を選択
  4. IPW定量を用いて使用した共変量が群間で差がないかを確認する(Rのmatchingパッケージで検定)