データ分析の書記録

読んだ本の内容って忘れてしまいますよね。このブログは分析関係の読んだ本、勉強したことの記録です。

調査観察データの統計科学 6章:インターネット調査

はじめに

前回の話 shinomiya-note.hatenablog.com

6.1 インターネット調査と従来の調査

様々な調査は得られた標本データから真に知りたい「母集団についての推測」を行っています。従来の調査は、無作為抽出された標本に対し質問票等から回答を得ています。一方、近年では手軽なネット調査が行われていますが、バイアスの問題があります。そこでネット調査のバイアス補正が必要となります。

6.2 インターネット調査の実例:選択バイアスとしての理解

ネット調査のバイアス

近年のネット調査はほとんどがクローズ型になっています。

  • オープン型:たまたまWEBをみた人が自主的に回答

  • クローズ型:以下

    1. 調査協力者をリクルート(調査パネル)
    2. 調査パネルから候補者を抽出
    3. 候補者にメールなどで依頼
    4. 指定ページで回答

クローズ型は無作為ではなく有意抽出→選択バイアスが生じます

f:id:shinomiya_note:20200308175006p:plain:w500

  • バイアス1:調査協力パネルへのリクルートの際のバイアス
  • バイアス2:調査協力パネルに参加するかどうかのバイアス
  • バイアス3:パネル登録者が各調査の回答に応諾するかどうかのバイアス

2と3は個人の問題であるので、バイアスがなくなるなんてことはありませんね。

欠測データの枠組みで考えるバイアスの理解

ネット調査を「ネット標本」に対し「ネット調査回答」が行われたとし、従来の調査を「無作為抽出標本」に対し「従来調査回答」が行われたとします。欠測データの枠組みで考えると以下のように表記できます。

z = 1 ネット調査の標本 z = 0 無作為抽出の標本
ネット調査での回答方法 y_{web} y_{web}|z=1 y_{web}|z=0
従来調査での回答方法 y_{real} y_{real}|z=1 y_{real}|z=0
共変量項目 どちらの調査でも共通項 どちらの調査でも共通項
灰字は観測できない


ネット調査は①ですね。ここで知りたいのは④従来の調査結果です。
一般的には回答方法に差はないと考えます(従来:質問票の回答、ネット:webページでのクリック回答等ですが、差はないと仮定します)ので、y_{web}=y_{real}→②=④
と仮定します。 つまり、②を精度よく①から推測できれば解決です。本の3.6節でも同じことをやっています。

\begin{align} E(y_{web}|z=0) = \frac{\sum_{i=1}^{N}\frac{z_i(1-e_i)}{e_i}y_{web_i}}{\sum_{i=1}^{N}\frac{z_i(1-e_i)}{e_i}} \end{align} z=(0,1)なので、実質z=0群のeとz=1群のeの比の逆数で重みづけした平均値ですね。ちなみに、二重にロバストな推定値でも可です。

しかし、このネット調査の標本データだけではz=1しか得られていないので傾向スコアeを計算できないですね。

6.4 インターネット調査の補正の実務手順

事前調査
  1. 事前に同じ質問項目をネット調査と従来の無作為標本調査で実施しデータを取得
  2. 共変量の選択と調整をやり、ネット調査結果から従来の無作為抽出標本を予測できることを確認しておく
本調査
  1. 事前調査時の無作為抽出標本(z=1)の共変量と本番のネット調査(z=0)の共変量を結合
  2. z=(0,1)ができたので傾向スコアを出す、共変量を調整し推定量を計算する

共変量項目の選択基準

  1. 個人内変動が少ない、継続的に質問できる項目
  2. 無作為抽出標本とネット標本で群間差の大きい項目を選ぶ(t検定やロジ回帰で標準偏回帰係数が大きい)
  3. 補正する結果変数を共変量で回帰させたとき、偏回帰係数が両群とも同じ方向(正負)になるもの
  4. 二乗誤差の和を減らすように調整