岩波データサイエンスVol.3 差の差法(DID)
差の差法とは
以前、調査観察データの統計科学でも取り上げた因果推論の手法の一つです。DIDとも呼ばれます。今回はより詳細に、実務的に取り上げられていた内容をまとめています。
実際は
実際にDIDを推定する場合、イチイチ各群の差の(平均値の)差をとったりしません。また単純に差の差を計算するだけでなく、各群の性質が大きく異なる場合(平行トレンド仮定が不成立)の共変量補正を行う必要があります。そのため次のような回帰モデルを作成して推定を行います。
基本例:2群の差の差
以下のような形式のデータがあるとします
サンプルNo | 結果Y | 介入群Z | 時間T | 共変量X(連続値) |
---|---|---|---|---|
N1 | 120 | 1 | 0 | 10 |
N1 | 150 | 1 | 1 | 2 |
N2 | 125 | 1 | 0 | 8 |
N2 | 140 | 1 | 1 | 18 |
N3 | 100 | 0 | 0 | 12 |
N3 | 110 | 0 | 1 | 3 |
N4 | 90 | 0 | 0 | 11 |
N4 | 112 | 0 | 1 | 18 |
単純化のために2期間(T=0,1)での観察とします。さて、ここで知りたいことは、時間経過に伴う介入Zの効果です。よって回帰モデルを以下のように考えます。
\begin{align} Y_{nt} = α+βZT+γZ+δT+λX+ε_{nt} \end{align}
α,β,γ,δ,λは係数、εは誤差項です。
介入の群変数Zと時間変数Tの交互作用項の係数βがまさに共変量を考慮した上での介入の差の差を表すことになります。同時に推定されるγは介入の、δは時間の単純な影響度合ですね。
介入変数が連続値のケース
一方、実際のデータには「介入が0か1か」や「期間が0か1か」の2通り以外のケースもあります。介入が連続値であったり複数の時間であったりですね。こういったケースでは直接的に連続値Cの時間変動の効果の方が知りたいですね。例えばデータが以下のようなものとします。
結果Y | 介入連続値C | 時間T | 共変量X(連続値) | 共変量P(カテゴリP) |
---|---|---|---|---|
120 | 0.1 | 0 | 10 | P1 |
130 | 0.3 | 1 | 5 | P1 |
150 | 0.5 | 2 | 2 | P1 |
125 | 0 | 0 | 8 | P2 |
150 | 0.5 | 1 | 8 | P2 |
160 | 0.6 | 2 | 3 | P2 |
100 | 0 | 0 | 12 | P3 |
110 | 0.2 | 1 | 10 | P3 |
115 | 0.3 | 2 | 9 | P3 |
90 | 0.1 | 0 | 18 | P4 |
112 | 0.2 | 1 | 15 | P4 |
120 | 0.3 | 2 | 11 | P4 |
他にも介入Zは連続値Cの値が時間経過である一定を超えた場合Z=1、変化がない場合Z=0とするような設定を後で行う場合です。
また、カテゴリPによって大なり小なり変動の幅は違いますので、その影響もモデルに含めてやります。
そうするとモデルは...
\begin{align} Y_{pt} = α+βC_{pt}+γT+δP+λX+ε_{pt} \end{align}
α,β,γ,δ,λは係数、εは誤差項です。Pはダミー化して使用。
よって介入Cの値に対する効果はβです。介入連続値Cと時間Tの交互作用項はありません。
また、共変量Pのように時間経過でも変化しないものを固定効果と呼びます。
三重差分
以下のようなデータがあるとします。
カテゴリP | 結果Y | 介入連続値C | 時間T | 変数X | グループG |
---|---|---|---|---|---|
P1 | 120 | 6 | 0 | 10 | G1 |
P1 | 130 | 6 | 0 | 12 | G2 |
P1 | 145 | 16 | 1 | 10 | G1 |
P1 | 150 | 16 | 1 | 2 | G2 |
P2 | 125 | 5 | 0 | 8 | G1 |
P2 | 135 | 5 | 0 | 9 | G2 |
P2 | 140 | 15 | 1 | 18 | G1 |
P2 | 150 | 15 | 1 | 3 | G2 |
P3 | 100 | 4 | 0 | 13 | G1 |
P3 | 110 | 4 | 0 | 12 | G2 |
P3 | 115 | 4 | 1 | 13 | G1 |
P3 | 120 | 4 | 1 | 3 | G2 |
P4 | 90 | 3 | 0 | 11 | G1 |
P4 | 93 | 3 | 0 | 12 | G2 |
P4 | 95 | 3 | 1 | 11 | G1 |
P4 | 100 | 3 | 1 | 2 | G2 |
差の差法では(B-A)-(F-E)を処置効果とみなしたが、この地域で保育所定員率以外の要因も変化し、 それが母親就業に影響を与えているならば、処置効果の推定値は交絡バイアスを持つ。具体的には産業構
このデータはカテゴリP×時間T毎の数値をさらにグループG毎に分けています。CはTとPが同じならグループG間で違いはありません。
さて、介入Cの時間的変化が結果Yに与える影響を調べていたわけですが、Yに影響する変数が他にもあり(Xのような)、いわゆる交絡バイアスが発生しているかもしれません。このまま介入の効果を見てもそれは「介入+交絡バイアス」の効果になってしまいますね。そのためにXを共変量として導入し、補正をする・・・というの上でやりました。
一方、Gのような関係があったとします。仮に交絡バイアスの効果がG1とG2に対し全く同じであるとするなら、G1とG2の差を取ればバイアスは消滅します。*1そういったグループに分けてしまえばバイアスを極力除いた介入の効果に近いわけです。
\begin{align} Y_{pgt}=α+βC_{pt}+\gamma G C_{pt}+δ_{1}P+δ_{2}G+δ_{3}T+δ_{4}PT+δ_{5}PG+δ_{6}T G+ε_{pgt} \end{align}
α,β,γ,δは係数、εは誤差項です。P,Gはダミー化して使用。
よってGCの係数γが知りたかったことの効果になります。
こうした時点✕介入✕グループのような分け方でバイアスを除いていく処置をするため、三重差分法と呼ばれます。