データ分析の書記録

読んだ本の内容って忘れてしまいますよね。このブログは分析関係の読んだ本、勉強したことの記録です。

「外資系コンサルのリサーチ技法」からみるリサーチスキルと考え方

はじめに

今回の本はこちらです。

str.toyokeizai.net

著者はコンサルの方です。 昨今、データ分析者の住み分けと必須スキルの定義づけが進んでいます。
例えば職種としてデータアナリスト、サイエンティスト、機械学習エンジニア、AIエンジニアetc...。それぞれ必要な割合は違うとしても必須スキルとして、①ビジネス力、②データサイエンス力、③データエンジニアリング力の3つはおおまかに共通しています。
そして結局のところ、データを根拠にビジネス課題に答える、意思決定させると言うところは全て同じ目標です。データサイエンスやエンジニアリングの技術云々は、そのための手段の一つに過ぎません。

コンサルタントはいわゆるビジネス(データ)アナリストと言うべき職種です。特に①ビジネス力に圧倒的に強い。コンサルはビジネス課題に対し、どう動き、どうデータをリサーチし、どうアウトプットを出すのか。コンサルの技術が学べるアナリスト必読の一冊です。

本記事、書記録として

本書は前半はリサーチの考え方、後半は具体的なビジネスの実例と技術例が多いです。そのため、本記事は特に前半の一部のポイントとリサーチの流れと考え方をまとめています。

リサーチとは

リサーチとは、単なる情報収集ではありません。ビジネスの意思決定を後押しするインサイト(=洞察)を抽出する行為です。

「リサーチ」とは意思決定のための材料を抽出する行為・・・これは「分析」とも置き換えられますね。 ビジネスにおける分析は、基本的にはなんとなくのアタリ(コンサルでは初期仮説と呼ぶそうですが)を検証する、あるいは別の事実を発見するという、仮説と検証の行ったり来たり作業(仮説⇆検証)の繰り返しですが、リサーチも同様で、それによってインサイトを抽出していきます。

リサーチの臨み方(動き方)①:目的意識を持つ

目的意識を持ってリサーチに臨まないと時間だけが無駄になり、結果をまとめるのが難しくなる。人は脱線・発散しがちなものです。私もしょっちゅうです。この目的意識とその3つの視点はリサーチや分析だけでなく、成果や指示におけるアウトプットの取り組み方としてビジネスのやりとり全般に役に立つ視点でしょう。

目的を確認する3つの視点

目的を確認して、 リサーチ内容と成果レベルを把握する3つの視点は、

  1. 「何を知りたいか」を考える前に、「どんな課題を解決したいのか」「答えるべき問い」を絞り込むこと

  2. 企画のステージはどの段階か?「(検討着手S)全体間の把握」「(仮説立案S)方向性を定める」「(仮説検証S)言いたいことに根拠を与える」

  3. 求められる成果のレベルとまとめるイメージを持つ。各ステージのリサーチは「スピード」「精度」「網羅性」の観点のバランスが大事。 まとめるイメージはメモなのか、パワポなのか、報告書なのか?、どの程度の時間をかけてやるべきなのか?

情報は少なければ少ないほどよい

リサーチの品質は、「いかに多くの情報を集められたか」ではなく、「報告相手にやってほしいこと、合意してほしいことを、いかに少ない情報で達成できたか」

企画ステージの段階はあれ、求められる成果(リサーチ側のアウトプット)は主張したいストーリー(仮説)とその根拠で構成されて、意思決定のインサイトが作られます。根拠となる情報は多く複雑になるほど聞き手側の理解の難易度が上がってしまいます。また、どのくらい根拠を与えれば十分かを見極めることは相当難易度が高い判断です。

リサーチの臨み方(動き方)②:リサーチプランの設計

  • どんなソースをあたるか × どの順番であたるか、のプランを決める

  • 複数のソースに並行してあたる、仮説が外れた場合の対応策を考慮に入れて、リサーチの広さと効率を考える
    たしかに、仮説は大概外れるものですね。それを考慮してリサーチ範囲を考えておかねばなりませんね。

  • リサーチ結果をまとめる、「鮮度」と「出所」で整理する

情報をさがす、つくる

情報には大別すると2種類あります。既存のデータをリサーチ、分析する探す情報。インタビューやアンケートによってデータをつくる情報。あるところから何かしらの新しい知見を見つけるのが分析者だと思われがちですが、むしろ必要な情報は無い方が普通。実務でもそう感じますね。データを探すのもリサーチャーやアナリストの仕事の一つでしょう。

  • さがす情報:WEB、文献、記事、オープンソース

  • つくる情報:インタビュー、アンケート、ソーシャルリサーチ、フィールド調査

文献におけるリサーチ

  • 書籍は最低3冊を読む
    いかなる文献も、著者のバイアスがかかっていることや、情報の網羅性が担保されないリスクがつきまとうため。

  • 「調査ベースの書籍」「主張ベースの書籍」
    手に取った文献のファクトの信頼性はどうなのか、解釈は歪められていないか、を意識する必要があります。書籍とはいえ「本当にそうなのか?」を常に心がけるべきです。たしかに。

  • ファクトとストーリーを勘違いしない
    リサーチで文献情報をあたるのは、「仮説の根拠となるファクト」を見つけることが目的。ビジネス書によく載っている「企業の理念や経営コンセプト等はファクトでは無い。

  • ビジネス課題は各企業の独自のものとして認識する
    ビジネス書には「企業がぶつかったビジネス課題」と「その取り組みの例」「意思決定の流れ」等の事実が載っています。が、ビジネス課題は複雑な要因で成り立っているため、その取り組み例における成功・失敗の結果は再現性がなく、自社の課題にそのままあてはめることができないものがほとんどです。よって、そのエッセンスのみを抽出するようにします

プロビット回帰の二段階推定と逆ミルズ比(調査観察データの統計科学 5章:選択バイアスの補足)

はじめに

今回はヘックマンのプロビット選択モデル(調査観察データの統計科学5章でやってた)の二段階推定についての補足です。詳しくはリンクを。

shinomiya-note.hatenablog.com

二段階推定時の表現

プロビット選択モデルを二段階推定で表現すると

\begin{align} E(y_{i1}|y_{i2}>0) &=E(x_{i1}β_{1} | y_{i2}>0 ) + E(ε_{i1} | y_{i2}>0 ) \\ &=x_{i1}β_{1} +ρσ_{1}\frac{φ(x_{i2}β_{2})}{Φ(x_{i2}β_{2})} \end{align}

φ/Φ部分をλ:逆ミルズ比(inberse Mills' ratio)と呼びます。データが観測されるかされないかは二値データですが、そのしやすさを示す指数です。プロペンシティスコアと同じようなものですね。

逆ミルズ比を求めて二段階推定をやってみる(R)

install.packages("sampleSelection")
data(Mroz87)
Mroz87$kids <- (Mroz87$kids5 + Mroz87$kids618>0)

####################################
#同時推定
####################################
mrozml <- selection(lfp ~ age + I(age^2) + faminc + kids + educ,
                    wage ~ exper + I(exper^2) + educ + city, data=Mroz87)
summary(mrozml)

####################################
# 二段階推定(selection関数)
####################################
mrozml2step <- selection(lfp ~ age + I(age^2) + faminc + kids + educ,
                    wage ~ exper + I(exper^2) + educ + city, data=Mroz87,method="2step")
summary(mrozml2step)

####################################
# 二段階推定(glmで手動)
####################################
# 推定1段階目
mrozmlstep1 <- glm(lfp ~ age + I(age^2) + faminc + kids + educ, data=Mroz87, family = binomial(probit))
lpred <-mrozmlstep1$linear.predictors
# 逆ミルズ比を求める関数
IMR <- Vectorize( function(x) exp( dnorm(x,log=T) - pnorm(x,log.p = T) ) )
imr <- IMR(lpred)
# 推定2段階目
mrozmlstep2 <- glm(wage ~ exper + I(exper^2) + educ + city +imr, data=Mroz87 %>% mutate(imr=imr) %>% filter(wage>0))
summary(mrozmlstep2)

こんなところですかね

「効果検証入門:DIDの章」を読んで気になったのでDIDのテクをいろいろ調べて試してみる

はじめに

前回はこちら

shinomiya-note.hatenablog.com

DIDの理論の話は以前にも shinomiya-note.hatenablog.com

回帰分析を利用したDIDと自己相関、標準誤差

DIDを利用する条件として、平行トレンド仮定があります。
DIDは目的変数の期間における時間トレンドが、仮に介入が発生しなかった場合(連続値の場合影響値が0の場合)変わらないという前提です。
特に複数期間を扱うデータだと、自己相関の問題も考えてやるべきでしょう。
また、サンプルによっても時間トレンドが異なると考えられます。これも考慮すべきでしょう。

DIDを複数期間、介入を連続値と二値、自己相関の検討、サンプルの効果(混合効果)といろいろ条件を変えてやってみます。またCausalImpactも試してみます。

データについて

高知工科大学の授業ページが本書のことも踏まえて解説しています。これはいい。参考にさせていただきます。

yukiyanai.github.io

続きを読む

「効果検証入門」:傾向スコアと共変量のバランスについて気になったこと

はじめに

前回はこちら

shinomiya-note.hatenablog.com

傾向スコアの利用

星野本の際にも記事にしましたので、こちらを参考に。 今回は星野本で得られなかったことを記事にしています。

shinomiya-note.hatenablog.com

傾向スコアマッチング

マッチングは基本ATT

ちょっとわかりにくかった。本書の例だと傾向スコア(PS)がタイプAかBか(0か1かの変数)で決まる例なので個の傾向スコアが0.667(Z=1)と0.333(Z=0)の2つです。マッチングは0.667同士、0.333同士で成立しますが、実際の傾向スコアはもっとばらばらになるものです(変数が複数、連続変数等)。

ATTなのはなぜか?Z=1の個人(サンプル)に傾向スコアが近いZ=0の個人(サンプル)をマッチングさせるからです。

f:id:shinomiya_note:20200826143556p:plain:w400
Z=1のPSに近しいZ=0のデータをマッチングさせる。そのためATTになる。

続きを読む

「効果検証入門」:回帰分析とOVB

はじめに

前回はこちら

shinomiya-note.hatenablog.com

回帰分析における効果の推定

共変量Xを条件づけて欠測部分を含めたYの期待値を推定。

  z=1 z=0
介入を受けた場合:y1 y_1|z=1 y_1|z=0
介入を受けない場合:y0 y_0|z=1 y_0|z=0
共変量X x x

灰文字 は観測できない値

回帰分析を用いた効果検証

回帰分析によって共変量Xで条件つけた介入の有無ごとの期待値を近似します。 \begin{align} E[Y | X, Z = 1] = \beta_{0} + \beta_{1}1 + \beta_{2}X \\ E[Y | X, Z = 0] = \beta_{0} + \beta_{1}0 + \beta_{2}X \end{align}

介入の効果はこれらの期待値の差分になることから \begin{align} &E[Y | X, Z = 1]-E[Y | X, Z = 0] \\ &= (\beta_{0} + \beta_{1}1 + \beta_{2}X) - (\beta_{0} + \beta_{1}0 + \beta_{2}X) \\ &= \beta_{1} \end{align} になります。Z=(0,1)の係数β1さえわかれば介入の効果がわかることになります。

続きを読む

「効果検証入門」一章を読んで改めて因果推論の重要性を確認する

はじめに:因果推論の重要性

今回の本はこちらです。

gihyo.jp

因果推論の本は以前取り上げた「調査観察データの統計科学」もあります。

shinomiya-note.hatenablog.com

しかし、「調査観察データの統計科学」はとても難しい内容で、10000%入門書ではありません。
それに比べて「効果検証入門」は因果推論を学ぶのに2020年でもっともオススメできる本です(自分比)。

あの時この本があったなら、泣きながら「調査観察データの統計科学」を読むこともなかったのでは・・・。

因果推論がなぜ必要か?

個人的にビジネス分析における因果推論の重要性は年々高まっていると感じています。その理由としては

  1. RCTができるサービスは限られていること
  2. 検証プランが事前に立つことが少ないこと

が挙げられます。*1

*1:+αで思うこと:サービスは必ずしもプラスの影響があるのでしょうか?場合によっては売上が下がる可能性もあります。何かを実施したらその効果を把握するというのはビジネスそのものだと思うのですが

続きを読む

「統計分布を知れば世界がわかる」から分布がなぜ現れるのか考える

はじめに

今回の本はこちらです。

www.chuko.co.jp

データ分析の基本で最も大事なこと。それはデータの分布をしっかりと観察するということです。 データ分析の世界は日進月歩でとかく手法に目がいきがちです。ですが、分析はあくまで意思決定をおこなうためのものです。根拠ある意思決定ができるなら問題ありません。むしろ大概はデータの分布を観察し考察することで低コストで十分な成果を得られます。 忘れがちですが頻度統計は分析の基本中の基本です。

続きを読む