Skip to main content

読んだ: 「はじめての統計的因果推論」

「はじめての統計的因果推論」(著: 林 岳彦)を読みました。

最近出版された統計的因果推論の本で評価が高かったので読んでみました。統計的因果推論に興味のある非データ分析者や初めて学ぶデータ分析者はもちろん、統計的因果推論を多少知っていて理解を整理したいデータ分析者にも非常によい本だと思いました。ほとんど数式を用いずに本質を説明していたのが印象的でした。なお、具体的な実装方法を説明している本ではありません。

いいなと思ったのは三点あります。

まず、因果効果を推定するとはどういうことなのか、じっくりと丁寧に論理を積み重ねて、これでもかというくらいかみ砕いて説明している点です。ここは書籍の第1部に該当します。

本で取り上げられている例を挙げます。いま、肥料を使用するとりんごの糖度が高くなるのかどうかを調べたいとします。肥料を使用したりんご(介入群)が数十個、使用していないりんご(対照群)が数十個あるとして、肥料を使用すると何度糖度が上がるか、このりんごからどうやって推定しましょうか?

介入群のりんごと対照群のりんごについて、それぞれ糖度を平均して引き算すればよいと思いつくかもしれません。ですがこの数値は因果効果とは限りません。というのは、例えば介入群にはもともと糖度が高い品種のりんごが、対照群のりんごにはもともと糖度が低い品種のりんごが多く含まれる場合、単なる平均の差では、このもともとの品種による糖度の違いを因果効果に加えてしまっているため、本来の因果効果よりも過大に効果を推定するからです(セレクションバイアス)。

品種に加え、天候などその他あらゆる要因の分布が介入群と対照群で等しいときに、肥料という処置による糖度への因果効果の推定値は、実際に観測された群間の糖度の平均の差となります。統計的因果推論の本質は、統計モデリングによって群間での要因の分布を揃える、あるいは揃えた状況を作り出すことです。実際にはすべての要因の分布を群間で揃える必要はなく、特定の要因(共変量)が揃っていれば因果効果を推定できます。何の要因を揃える必要があるのかを解き明かすために、因果ダイアグラムやバックドア基準を書籍中で説明しています。

RCTは、あらゆる要因の分布を群間で揃えられるので最も強力な手法です。因果ダイアグラムの観点から見ると、共変量を無作為割付(コイントス)という単一の変数に絞ることでバックドア基準を達成する方法であり、潜在結果モデルの観点から見ると、本来観測できない反事実下での期待値を無作為割付によって観測値で代替できるようにする方法です。

RCTが使えない場合に2群間で要因の分布を揃える方法として、層別化や重回帰分析、傾向スコアなどの各種手法を使用します。この書籍のおすすめポイントの二つ目は、第2部でこれらの各種手法の計算ロジックを暗算で計算できる簡単な例で説明していることです。各手法にはメリットとデメリットがありますし、適用するためにデータが満たす必要がある特徴もありますが(例えば、傾向スコア法では傾向スコアの分布が介入群と対照群で似ている必要があります(コモンサポート))、手計算レベルの例をなぞることで自然に理解できます。

最後に第3部で、統計的因果推論で推定される因果効果とは何か、科学哲学的な観点からしっかり説明している点もよかったです。

実験をよく設計しなければ、本来の処置の効果とは違う効果が因果効果の中に含まれてしまうことがあります(だから二重盲検法を使用するのですね)。また、特定の集団から取り出したサンプルで推定した因果効果を、その特定の集団を包含するより大きい集団の因果効果として扱っていいのかという問題もあります(外的妥当性)。

これらは統計的因果推論の本では、特に実装系の本では触れられないこともありますが、統計的因果推論を実社会に適用する上でデータ分析者が考慮しなければならない非常に重要なポイントです。章を複数割いて説明しているところに著者の心意気を感じました。

具体的な実装方法や理論を学びたい場合は例えば次の書籍に進むとよいのではないでしょうか。最初の二つの書籍は特に定番ですね。