データ分析の書記録

読んだ本の内容って忘れてしまいますよね。このブログは分析関係の読んだ本、勉強したことの記録です。

2020-01-01から1年間の記事一覧

プロビット回帰の二段階推定と逆ミルズ比(調査観察データの統計科学 5章:選択バイアスの補足)

はじめに 今回はヘックマンのプロビット選択モデル(調査観察データの統計科学5章でやってた)の二段階推定についての補足です。詳しくはリンクを。 shinomiya-note.hatenablog.com 二段階推定時の表現 プロビット選択モデルを二段階推定で表現すると \begi…

「効果検証入門:DIDの章」を読んで気になったのでDIDのテクをいろいろ調べて試してみる

はじめに 前回はこちら shinomiya-note.hatenablog.com DIDの理論の話は以前にも shinomiya-note.hatenablog.com 回帰分析を利用したDIDと自己相関、標準誤差 DIDを利用する条件として、平行トレンド仮定があります。 DIDは目的変数の期間における時間トレン…

「効果検証入門」:傾向スコアと共変量のバランスについて気になったこと

はじめに 前回はこちら shinomiya-note.hatenablog.com 傾向スコアの利用 星野本の際にも記事にしましたので、こちらを参考に。 今回は星野本で得られなかったことを記事にしています。 shinomiya-note.hatenablog.com 傾向スコアマッチング マッチングは基…

「効果検証入門」:回帰分析とOVB

はじめに 前回はこちら shinomiya-note.hatenablog.com 回帰分析における効果の推定 共変量Xを条件づけて欠測部分を含めたYの期待値を推定。 z=1 z=0 介入を受けた場合:y1 介入を受けない場合:y0 共変量X x x 灰文字 は観測できない値 回帰分析を用いた効…

「効果検証入門」一章を読んで改めて因果推論の重要性を確認する

はじめに:因果推論の重要性 今回の本はこちらです。 gihyo.jp 因果推論の本は以前取り上げた「調査観察データの統計科学」もあります。 shinomiya-note.hatenablog.com しかし、「調査観察データの統計科学」はとても難しい内容で、10000%入門書ではありま…

「統計分布を知れば世界がわかる」から分布がなぜ現れるのか考える

はじめに 今回の本はこちらです。 www.chuko.co.jp データ分析の基本で最も大事なこと。それはデータの分布をしっかりと観察するということです。 データ分析の世界は日進月歩でとかく手法に目がいきがちです。ですが、分析はあくまで意思決定をおこなうため…

大本営参謀の情報戦記から学ぶ「情報を扱う」とは

はじめに 本書は以下の記事で紹介されていた経緯で読んだものです。 www.itmedia.co.jp データ分析者だけでなく、企業人なら必須と言える様々な基本原則が書かれています。 作者は陸軍情報部、自衛隊に所属した情報部員で、戦時中〜戦後の日本軍や自衛隊の情…

データ分析者が思う「問題解決のジレンマ」その4 〜上位概念の思考法〜

はじめに 前回のはなし shinomiya-note.hatenablog.com 問題定義と問題解決 前回、問題を解くためには軸を固定して「問題である」「問題でない」を区別しなければいけないと述べました。あらためて「問題を定義/発見すること」「問題を解決すること」はどう…

データ分析者が思う「問題解決のジレンマ」その3 〜問題解決のジレンマ〜

はじめに 前回のはなし shinomiya-note.hatenablog.com 問題は「事実」と「解釈」の乖離から発生する 「未知の未知」領域を意識することが重要なのは、私たちの既知の領域が非常に狭く、この中で考えていては表層的な問題しか解決しかできないためです。

データ分析者が思う「問題解決のジレンマ」その2 〜事実と解釈〜

はじめに 前回のはなし shinomiya-note.hatenablog.com 事実の無知と解釈の無知 前回、問題を発見するには未知の領域に目を向けなければいけないと述べました。知や未知とは何を知っていて、何を知らないこととするのでしょうか?まずそこを定義してやります…

データ分析者が思う「問題解決のジレンマ」その1 〜未知と既知〜

【無知の知】 知れば知るほど、自分が知らないということを知る --アリストテレス はじめに データ分析者に必要な要素とはなんでしょうか?という問いに答えるなら、第一に「意思決定をするために、問題を定義し、解決まで導ける力」です。様々な分析手法や…

岩波データサイエンスVol.3 差の差法(DID)

差の差法とは 以前、調査観察データの統計科学でも取り上げた因果推論の手法の一つです。DIDとも呼ばれます。今回はより詳細に、実務的に取り上げられていた内容をまとめています。 実際は 実際にDIDを推定する場合、イチイチ各群の差の(平均値の)差をとっ…

調査観察データの統計科学 6章:インターネット調査

はじめに 前回の話 shinomiya-note.hatenablog.com 6.1 インターネット調査と従来の調査 様々な調査は得られた標本データから真に知りたい「母集団についての推測」を行っています。従来の調査は、無作為抽出された標本に対し質問票等から回答を得ています。…

調査観察データの統計科学 5章:選択バイアス

はじめに 前回の話 shinomiya-note.hatenablog.com 5.1 選択バイアス 以下の図をご覧ください。 賃金(Y1)は働いている人しかもらえません=観測できません。働くかどうか(Y2)は各人の年齢/世帯年収/子供等の変数(Z2)により考えた結果、働いた方が利益が…

調査観察データの統計科学 4章:共変量の選択

はじめに 前回の話 shinomiya-note.hatenablog.com 4.2 共変量の選択 共変量の候補になる変数を改めて確認します。 候補は左上の1例です。 変数の関係性 ※ 変数の矢印は時間的関係性も含む

調査観察データの統計科学 3章:操作変数法~差分の差法

はじめに 今までの話 - 調査観察データの統計科学 1~2章 - 調査観察データの統計科学 3章:傾向スコア 今回は傾向スコアを用いた解析の応用パターンです。 3.7 操作変数法を用いた因果効果の推定 まず因果推論におけるデータの関係性をおさらいします。 …

調査観察データの統計科学 3章:傾向スコア

はじめに 今までの話 - 調査観察データの統計科学 1~2章 データから因果推論を行う基本戦略3つのうち、 3章は「戦略3:セミパラメトリックな手法を使う」についてです。 3.1 傾向スコア 傾向スコアe 複数の共変量を1次元に集約できれば、マッチングや層…

調査観察データの統計科学 1~2章

はじめに 因果推論についての解説本。かなり難しい。数式が多く説明自体が概念や統計学を理解している方向けに書かれていると感じました。 中~上級者向け。事前に岩波データサイエンスVol3を読んでおくと良いです。