データ分析者が思う「問題解決のジレンマ」その3 〜問題解決のジレンマ〜
はじめに
前回のはなし
問題は「事実」と「解釈」の乖離から発生する
「未知の未知」領域を意識することが重要なのは、私たちの既知の領域が非常に狭く、この中で考えていては表層的な問題しか解決しかできないためです。
しかし、未知の領域に気づき、新たな解釈を得て問題を発見/定義できたとしても、その解釈は時間とともに事実から乖離していきます。*1そして事実と解釈の乖離が広がることで新たな問題が発生します。(下図)。*2そこで解釈をリセットし、新たな思考の軸(変数、次元)からモノを見る必要が出てきます。
解釈とは軸を固定して見ること、軸を固定することでの問題
問題を発見/定義する意義は、問題を解決することにあります。つまり問題を解くためには軸を固定して「問題である」「問題でない」を区別しなければなりません。問題を発見/定義することとは抽象的な状態にある問題意識を線を引いて分類することといえます。ところが、そうして線を引く(解釈する)ことは問題解決をしやすくるとともに時間経過で次の問題を発生させやすくするという根本的なジレンマを内包しています*3。まさに、「線を引くから想定外が生まれる」「解釈を固定することで事実との乖離が生じる」ということですね。
データ分析で思うこと
線を引いて分類(解釈)するという行為は分析の行為そのものと言えます。分析手法のジャンルに分類がありますが、クラスターやK-meansなどに代表される教師なし分類は数学的なあるルールに則った分類の方法です。未知からの問題定義とは、問題意識を具体的な変数に落としそこから分類した先を問題として定義していく過程であり、分析においてただ分類の手法を使うのではなく、問題意識を持ちそれを定義するため様々な視点(次元・変数)のデータを用意し検証するということに分析の重点が置かれるべき、と言えるでしょう。*4