データ分析の書記録

読んだ本の内容って忘れてしまいますよね。このブログは分析関係の読んだ本、勉強したことの記録です。

調査観察データの統計科学 5章:選択バイアス

はじめに

前回の話 shinomiya-note.hatenablog.com

5.1 選択バイアス

以下の図をご覧ください。

f:id:shinomiya_note:20200312183854p:plain:w500

賃金(Y1)は働いている人しかもらえません=観測できません。働くかどうか(Y2)は各人の年齢/世帯年収/子供等の変数(Z2)により考えた結果、働いた方が利益がある場合に就業します。
さて、非就業の観測されない賃金バイアスを補正し、真の女性の賃金を知りたいとします。

続きを読む

調査観察データの統計科学 3章:操作変数法~差分の差法

はじめに

今までの話
- 調査観察データの統計科学 1~2章
- 調査観察データの統計科学 3章:傾向スコア

今回は傾向スコアを用いた解析の応用パターンです。

3.7 操作変数法を用いた因果効果の推定

まず因果推論におけるデータの関係性をおさらいします。

データの関係性

f:id:shinomiya_note:20200228170417p:plain:w300

では次のようなケースを想定します

f:id:shinomiya_note:20200303174827p:plain:w300

1. 結果変数Yに関係しない 2. 割り当てZに関係する 変数Wが追加されました。この変数を操作変数と言います。 欠測データの枠組みで考えると以下のとおりですね。

続きを読む

調査観察データの統計科学 3章:傾向スコア

はじめに

今までの話
- 調査観察データの統計科学 1~2章

データから因果推論を行う基本戦略3つのうち、 3章は「戦略3:セミパラメトリックな手法を使う」についてです。

3.1 傾向スコア

傾向スコアe

複数の共変量を1次元に集約できれば、マッチングや層別の問題が起こらない(にくい)、という考え方です。

続きを読む

調査観察データの統計科学 1~2章

はじめに

因果推論についての解説本。かなり難しい。数式が多く説明自体が概念や統計学を理解している方向けに書かれていると感じました。
中~上級者向け。事前に岩波データサイエンスVol3を読んでおくと良いです。

続きを読む