データ分析の書記録

読んだ本の内容って忘れてしまいますよね。このブログは分析関係の読んだ本、勉強したことの記録です。

「効果検証入門」一章を読んで改めて因果推論の重要性を確認する

はじめに:因果推論の重要性

今回の本はこちらです。

gihyo.jp

因果推論の本は以前取り上げた「調査観察データの統計科学」もあります。

shinomiya-note.hatenablog.com

しかし、「調査観察データの統計科学」はとても難しい内容で、10000%入門書ではありません。
それに比べて「効果検証入門」は因果推論を学ぶのに2020年でもっともオススメできる本です(自分比)。

あの時この本があったなら、泣きながら「調査観察データの統計科学」を読むこともなかったのでは・・・。

因果推論がなぜ必要か?

個人的にビジネス分析における因果推論の重要性は年々高まっていると感じています。その理由としては

  1. RCTができるサービスは限られていること
  2. 検証プランが事前に立つことが少ないこと

が挙げられます。*1

RCTができるサービスは限られている

ランダム化比較試験(RCT)は臨床試験など医療統計では当然にように行われているもっとも理想的な検証方法です。WEBサービスにおいてはRCTを用いたABテストで効果検証しサービス改善を行なっていることが多いようです。しかし、RCTは対象を2つ以上のグループに分けて別々のサービスを提供するという実験です。そもそも実施ができないサービスやビジネスが当然あります。また、可能だとしても「実施コストが高い」という問題も。

検証プランが事前に立つことが少ない

サービスを行なっている現場では、サービスの企画と実施までで効果の把握まで行うことを考えていないことが多々あります。*2そのため、後になってサービスの影響や効果を求められることが多々ありますが、そうなるとRCTのように比較できるようなデータにはなっていません。

というわけで上記のような問題に対処し、サービスの真の効果を測るには因果推論の技術が必要になります。 例えばソーシャルゲームのようなサービスです。

medium.com

因果推論の基本的な考え方

因果推論における基本的な考え方*3は以下の図に集約されており、これは非常に秀逸です。

f:id:shinomiya_note:20200820235414p:plain:w500

図 ECサイトにおけるメール配信のユーザーの購買影響を調査する例として

因果推論はとにもかくにもこのセレクションバイアスをいかに補正して本当の効果を推定するか、です。

セレクションバイアスはなぜ発生するのか

そもそも介入が恣意的

サービスの都合上、効果が出そうなユーザーに介入を行うというビジネス上当然の問題があります。それゆえセレクションバイアスを減らすには発生するような要因を分析者が観察し見つける力が必要になります。

*1:+αで思うこと:サービスは必ずしもプラスの影響があるのでしょうか?場合によっては売上が下がる可能性もあります。何かを実施したらその効果を把握するというのはビジネスそのものだと思うのですが

*2:そもそも何をどれくらい改善するという目標がないことも(いわゆるKPIが定まっていない)。また、データを用いた意思決定のプランニング教育も行われていないことが多い。

*3:rubinの因果推論