データ分析の書記録

読んだ本の内容って忘れてしまいますよね。このブログは分析関係の読んだ本、勉強したことの記録です。

調査観察データの統計科学 3章:操作変数法~差分の差法

はじめに

今までの話
- 調査観察データの統計科学 1~2章
- 調査観察データの統計科学 3章:傾向スコア

今回は傾向スコアを用いた解析の応用パターンです。

3.7 操作変数法を用いた因果効果の推定

まず因果推論におけるデータの関係性をおさらいします。

データの関係性

f:id:shinomiya_note:20200228170417p:plain:w300

では次のようなケースを想定します

f:id:shinomiya_note:20200303174827p:plain:w300

1. 結果変数Yに関係しない 2. 割り当てZに関係する 変数Wが追加されました。この変数を操作変数と言います。 欠測データの枠組みで考えると以下のとおりですね。

f:id:shinomiya_note:20200319134139p:plain:w400

上の例では、くじに当選して英語教育プログラムに無償で参加する権利をもらっても参加しない人や、くじの判定に関わらず参加する人もいますが、とりあえず「もしくじに当選した場合参加し、くじに落選した場合参加はしない人の差」を見ることにします。
このときの平均処置効果ATEは局所的平均処置効果LATEと言います。

局所的平均処置効果LATE

LATE = E(y_1-y_0|w_1=1,w_0=0) wの条件は、くじが当たった時は参加、外れたときは不参加、と考える人(サンプル)間の因果効果になります。
\begin{align} LATE=\frac{E(y|w=1)-E(y|w=0)}{E(z|w=1)-E(z|w=0)} = \frac{ \bar{y}_{w=1}-\bar{y}_{w=0} }{ \bar{z}_{w=1}-\bar{z}_{w=0} } \end{align} \begin{align} \bar{y}_{w=1}はくじw=1に割り当てられた群での平均値\\ \bar{z}_{w=1}はくじw=1に割り当てられた群でのz=1の割合 \end{align}

ここでの例はLATE=「くじで分けた場合のYの平均値差 / くじで分けた場合の参加率(z=1割合)の差」となっています。

LATEの条件と設定

LATEが成り立つにはいくつかの仮定を置いてます

  • 操作変数の条件:結果変数Yと操作変数Wが条件付き独立(Zを通してのみ関係)
  • 操作変数WはZと相関が高い変数にする
  • 単調性の仮定(当たれば不参加、外れれば参加のようなひねくれ者は仮定しない)

3.8 回帰分断デザイン(RDD)

割り当てZが共変量Xの閾値Cによって決まるようなケースではXのみによってきっちりZが分かれるため、共変量Xを条件づければYはZに依存しないとする”強く無視できる割り当て条件” が成立します(x>c→z=1等)。 処置群と対照群の回帰関数の差は
\begin{align} E(y|x,z=1) - E(y|x,z=0) = E(y_1|x,z=1) - E(y_0|x,z=0)\\ =E(y_1|x,z=1) - E(y_0|x,z=1) + \{E(y_0|x,z=1) - E(y_0|x,z=0)\} \end{align} yの値はzに依存しないので、後者の{}は消去できます。よって、 \begin{align} Ex[ E(y|x,z=1) - E(y|x,z=0)] = E(y_1-y_0|z=1) = TET (ATT)\\ \end{align}


TET (ATT)は処置群での平均処置効果です。つまり因果効果ATE=TETになるので、3.6同様のTET(ATT)推定のやり方をすればOKです。

割り当てZをきめる共変量Xが時間の場合

処置群と対照群が時間の前後になるようなケースは中断(分断)時系列デザインと言います。

3.9 差分の差(DID)推定量を利用した因果効果の推定

実際の観察研究データでは処置群と対照群の質が異なることが多いので、今まで述べてきたように共変量で調整を行っています。
そこで、介入後の結果変数の差だけでなく、介入前の結果変数の差も測定しておき、「介入後の差 - 介入前の差」によって効果の推定値とする場合があります。

f:id:shinomiya_note:20200303192149p:plain:w400

介入群をA、対照群をBとして DID推定量 = (A2-A1) - (B2-B1)。
各群の差は何を表しているかというと、
 - 介入A群の差=時間変化による効果+介入の効果+誤差
 - 対照B群の差=時間変化による効果+誤差
つまり差の差 (A2-A1) - (B2-B1)が「介入の効果」になりますね。

DID推定量の条件

ただしこれも条件があります。

  • 平行トレンド仮定:介入がなかった場合の経時変化が2群で平行トレンドであること(例のごとく処置群では実施後の結果値は観測されない)
  • 共通ショック仮定:各群に「別のイベント」が起きてないこと「起きても各群に等しく影響している」こと
DID=TET?

DIDは欠測データの枠組みなら次のように表現できます。

  z = 1 処置群 z = 0 対照群
y_{1b} y_{1b}|z=1 欠測
y_{0b} 欠測 y_{0b}|z=0
y_a 事前観測データ 事前観測データ

DID = E(y_{1b}-y_a|z=1) - E(y_{0b}-y_a|z=0)

条件の”平行トレンド仮定”が成り立つと、介入がなかった仮定での事前と事後の差分は同じになるので、
E(y_{0b}-y_{a}|z=1)=E(y_{0b}-y_{a}|z=0)(欠測値との差=観測値との差)になります。 合わせると

\begin{align} DID &= E(y_{1b}-y_a|z=1) - E(y_{0b}-y_a|z=1)\\ &= E(y_{1b}-y_{0b}|z=1)\\ &= TET \end{align}

となり、DID = TETが成り立ちます。

おさらい:DIDを処置群の因果効果TETとして使用するためには


  • 事前の結果変数データを取得しておくこと
  • 平行トレンド仮定を満たすこと

セミパラメトリックの手法(傾向スコアで調整)

DID=TETの条件は平行トレンド仮定が成立することです。
では今までの手法と同じく共変量調整を行うと、 E(y_{0b}-y_{a}|z=1,x)=E(y_{0b}-y_{a}|z=0,x)(欠測値との差=観測値との差)になります。
つまり共変量調整して平行トレンド仮定が成立すればよいという条件が緩くなります。

傾向スコアを用いて補正したDID=TET推定量は、 \begin{align} \frac{\sum_{i=1}^{N}(y_{bi}-y_{ai})\frac{z_i-e_i}{1-e_i}}{\sum_{i=1}^{N}e_i} \end{align} となります。