データ分析の書記録

読んだ本の内容って忘れてしまいますよね。このブログは分析関係の読んだ本、勉強したことの記録です。

「統計分布を知れば世界がわかる」から分布がなぜ現れるのか考える

はじめに

今回の本はこちらです。

www.chuko.co.jp

データ分析の基本で最も大事なこと。それはデータの分布をしっかりと観察するということです。 データ分析の世界は日進月歩でとかく手法に目がいきがちです。ですが、分析はあくまで意思決定をおこなうためのものです。根拠ある意思決定ができるなら問題ありません。むしろ大概はデータの分布を観察し考察することで低コストで十分な成果を得られます。 忘れがちですが頻度統計は分析の基本中の基本です。

本書の主要な部分は社会や自然の現象が分布、とりわけ「べき乗分布」と「対数正規分布」に現れるその理由と構造を解説し、そこから様々な考察と示唆を述べています。データの分布から現象を説明するというのは統計モデルの考え方そのものですね。データを分布に当てはめてメカニズムを考えること、統計モデルの構築に役に立つ一冊です。

複雑系と現象の過程

自然や社会で発生する現象は一般的に多種多様な要因(モノゴト)が複雑に絡み合い関係しあいながらも一つの現象として発生しています。これらの一つのまとまりを複雑系といいます。分布にはその系の要因の構造が現れます。

加算過程

複雑系の各要因が関連することなく(少しは関連するがお概ね)独立に足し算的に積み重なった過程を加算過程といいます。要因同士が影響し合うことがない(少ない)ため積み重なっても大体が一定で、発生するバラツキは少し大きくなったり小さくなったりして分布します。例えば各個人の身長の分布は、「遺伝、家庭環境、教育事情、生まれた地域等」の要因の加算過程の現象です。

\begin{align} P = p_1 + p_2 + ...p_n \end{align}

加算過程は、その性質から正規分布になることが数学的にわかっています(中心極限定理*1ですね)

乗算過程

一方、要因が関連して一つ前の段階を前提にする(要因が移り変わる性質を持つ)、非独立の掛け算的な過程を乗算過程といいそのために発生するバラツキは加算過程よりも大きくなります。例えば各個人の所得分布は出生地➡︎家庭環境➡︎学校➡︎会社➡︎役職・・・等の各要因が次の要因の実現確率に影響し、その乗算の結果が分布となって現れています。

\begin{align} P = p_1 \times p_2 \times ...p_n \end{align}

乗算過程は、その時間軸的な歴史性の乗算結果であることから、多くの社会・自然現象にべき乗分布や対数正規分布等に現れます。

べき乗分布

f:id:shinomiya_note:20200815172735j:plain:w400
よくある、べき乗分布

べき乗分布は地震の大きさと頻度、都市人口、月面クレーターのサイズ、ハムレットの英単語の出現頻度etc...に見られます。べき乗分布のような振る舞いを示す法則をジップ則といいます。べき乗分布は下のようなべき乗関数です。

\begin{align} f(x) = A \times x ^ {-(a)} \end{align}

とはいえ、べき乗分布は統計分布の右裾部分のようなまれな現象にはよくフィットしますが、全体ではべき乗分布から外れる例も多い。

対数正規分布

f:id:shinomiya_note:20200815190949j:plain:w400
対数正規分布

対数正規分布は乗算過程の分布でもとりわけ多いです。対数正規分布は以下のような関数です。まさに対数をとると正規分布になるのが対数正規分布です。

\begin{align} f(x) = \frac{1}{\sqrt{2\pi} σx} \exp(-\frac{(\ln x - \mu )^{2}}{2σ^{2}} ) \end{align}

本書では複雑系のデフォルト分布は対数正規分布である」とさえ述べています。

対数正規分布がなぜ多いのか?乗算過程と加算過程の分布の関係

要因が加算過程の場合正規分布になる、ということは上記しています。一方、乗算過程が対数正規分布として現れるという関係は、乗算過程の対数を取ると加算過程になる性質=logの性質そのものがあるからです(下記)。

\begin{align} \ln(A \times B) = \ln A + \ln B \end{align}

対数を取ると正規分布になる(=加算過程になる)という対数正規分布の性質そのものですね。よって乗算過程は対数正規分布がデフォルト分布であると言えそうです。

分布を確認する(ランキングプロット、累積個数分布)

実際のデータがどんな分布かを確認するはどのような方法が良いでしょうか。とりあえずヒストグラムを描いてみるのも良いですが、データ数が限りある場合ランキングプロット(累積個数分布)で確認すると良いとのことです。
ためしに紹介されていた各国のGDP(2005年)をプロットし確率分布を当てはめてみます。

f:id:shinomiya_note:20200731175002p:plain

本書のプロットと確率分布の当てはまり方が違いますが、本ではデータに合わせたベストプロットと述べてますので最尤推定したものと違うようですね。

対数正規分布からみる統計の考察とは

大事なことは、注目するデータの統計が対数正規分布から外れる場合は、そのような変更をもたらす特別な理由があり、何らかの付加メカニズムが働いているということが考えられるということです。一方、ランキング上位にある右裾の構成存在(例えば超高額所得者や超大企業など)には当てはまらないケースがままあるということです。貨幣のようなもののやりとりが起こる状況ては、より多くを持つところにモノがいっそう集中する傾向があるからです。

このように、事象のデータが特定の分布に現れること、分布に現れるメカニズムを検討することはデータからモノゴトを説明するという分析の基本であるといえます。ついついおろそかになりがちですが、忘れないようにしましょう。

*1:サイコロ10個を同時に振った目の平均値は3.5ですが、これを10回、20回...と繰り返した結果の分布は真の値である3.5を中心にばらつく