[Books][読書][Statistics][データサイエンス]因果推論の科学

Table of Contents

因果推論の科学

「人工知能の巨人」が放つ「なぜ？の科学」の革命的な入門書！「私自身、この本の解説を書くことが憚られるくらいの凄い内容」 ――松尾豊氏（人工知能学者・東大大学院教授）絶賛！米Amazonでは1256レビュー、4.5★。ポピュラーサイエンスの…

Judea Perlによる一般向け統計書。もともと電気科学からAI研究、そしてベイジアンネットワークの研究を経て因果推論に深く関わるようになった研究者。この本は重要な本なので、読みながらまとめていく。

Do演算子の導入

序章で述べられている重要な事柄として、\(P(L|do(D))\ne P(L|D)\)との違いである。どういうことかというと、\(do(D)\)というのは介入を表す演算子で、例えばここで薬\(D\)を服用した患者が\(L\)年生きる確率を求めたいとすると、\(do(D)\)は積極的な介入を表す。自主的に薬\(D\)を服用した患者の寿命\(L\)の観察頻度が\(P(L|D)\)となる。この、「見ること」と「介入すること」の違いの区別が最も重要だと筆者は述べる。確かに考えてみると、介入と観察の違いを意識することがなかった。

因果のはしご

第\(1\)章のエッセンスになってしまうが、因果関係にいたる\(3\)つのはしごとして、
1. 関連付け
2. 介入
3. 半事実

をあげている。関連付けというのは、受動的な観察に基づく。\(X\)を観察したら何がわかるか、という予測である。筆者は現在の学習機械をこの\(1\)段階目にあると断言する。つまり、因果のはしごの一番低い段階にあると述べている。

介入は、データから導き出される観察結果に対して、対象に変化を加えることで可能となる。例えば、「ある商品の値段を倍にしたらどうなるか？」、あるいは「この患者に薬剤\(X\)を内服させるとどうなるか」という問いかけである。これは単に大量のデータを集め、解析しただけでは届かないステージである。

最後の半事実、英語でcounterfactualな問いかけが、因果のはしごの最上段である。「もしもこの薬を内服しなかったらどうなるか」という問いかけへの答えは、データの観察からだけからはたどり着くことができない。この問いかけに答えるためには、因果モデルを有する必要がある。モデルを有していれば、状況の変化に対して柔軟に対応することができるだろう。ユヴァル・ノア・ハラリは「サピエンス全史」において架空の生き物や偶像を作ることがヒトをヒトたらしめた能力だとして、それを「認知革命」といったが、筆者もそれに賛同し、半事実的な思考の重要性を再度伝えている。

ワクチンと死亡確率

重要な例として、筆者があげているのが、ワクチンの例である。本では天然痘を例としてあげていて、これを詳しく考えてみよう。\(N\)人のワクチン接種対象者がいて、このうち\(p\%\ \ (0<p<1)\)がワクチンを接種し、残りの\((1-p)\%\)は接種しない。接種したうち\(a\%\)が重篤な副作用を起こし死亡する。また、ここでは仮定としてワクチンを接種した人は天然痘で死亡することはなくなるものとする。一方で、ワクチンを接種しなかった人はワクチンによる副作用で死ぬことはないが、\(b\%\)が天然痘で死亡するとする。これを以下のように表にする。

ワクチン接種の副作用で死ぬ	\(N\times p\times a\)
天然痘で死ぬ	\(N\times (1-p)\times b\)

状況をまとめた表。

例えば、\(N = 120,000,000\)（1億2千万。日本の人口）、\(p = 0.99\)、ワクチンで死ぬ確率を高めに見積もって\(a = 0.0001\)（1万人に一人が死亡）、天然痘で死ぬ確率を\(b = 0.0002\)（1万人に二人が死亡）としてみる。数値を当てはめると、以下の表ができる。

ワクチン接種の副作用で死ぬ	\(11,880\)人
天然痘で死ぬ	\(240\)人

数値を当てはめてみる。

数字だけみると、なんとワクチン接種で死ぬ人の数の方が多くなってしまう。これを元に、「天然痘ワクチンは危険だから中止すべき！」という人がいてもおかしくはないかもしれない。しかし、重要なのは、ここで以下のような半事実的な問いかけを行うことである。すなわち、「仮にワクチン接種率が\(0\%\)になったとしたら、どうなるだろうか」という問いである。この場合、上の表の\(N\times (1-p)\times b\)で\(p = 0\)になるので、天然痘で死ぬ人の数は\(24,000\)人になる。つまり、ワクチン接種を完全にやめることにより、ワクチン接種を行うときと比べて、死亡する人の数は\(24,000-11,880 = 12,120\)人も増えてしまう。このような半事実的な考え方を人間が得られたことを感謝すべきなのかもしれない。

計量経済学の失敗

ここで筆者は、「グレンジャー因果」あるいは「ベクトル自己相関」といった計量経済学の概念を、「大失敗」と断じている。これは、不確実性を扱える唯一の方法である確率の言語に飛びついてしまったことが失敗だと筆者は言う。この表明は、確率で因果関係を表現しようとすることの限界と、do演算子の威力に対する言明と捉えることができる。

連鎖、分岐、合流

第\(3\)章で\(3\)つの重要なジャンクション（因果ネットワーク）の構成因子があげられている。

連鎖

チェーンである。\(A \rightarrow B\rightarrow C\)という構成で、\(B\)は媒介因子になる。例としてあげているのが、「火\(\rightarrow\)煙\(\rightarrow\)火災報知器」があり、この場合火災報知器は火を感知して警報を発するのではなく、煙を感知して警報を発する。つまり、部屋に火があったとしても、煙を除去できれば警報は鳴らない。ここで重要なことは、\(B\)は\(A\)あるいは\(C\)から情報を切り離す役割があることである。

分岐

フォークである。\(A\leftarrow B\rightarrow C\)という構成で、\(B\)は交絡因子confunderである。よくあげられる例としては、「飲酒する人(\(A\))は肺癌(\(C\))になりやすい」であろう。ここでの交絡因子\(B\)は喫煙である。つまり、喫煙する人は飲酒もするし、肺癌にもなりやすい。疑似相関という単語で説明されることもあるが、重要なのは\(B\)が決まれば\(A\)と\(C\)は条件付きで独立しているということである。

合流

コライダーである。これが一番わかりにくい。\(A\rightarrow B\leftarrow C\)という構成になる。ここでは本書とは別の例をあげてみよう。バスケットボール選手のレギュラーになるためには、「スピード」と「身長の高さ」\(2\)つの要素が必要だとする。この場合、スピードが早いことはレギュラーになることの確率を高めるだろうし、身長が高いことも、レギュラーになれることに寄与するだろう。ところが、バスケットボール選手以外では、スピードが早いことと身長の高さには関係はないと考えられる。状況をもっとわかりやすくするために、バスケットボール選手のレギュラーになるためには、「スピード」か「身長の高さ」のどちらかだけが必要だと仮定してみる。この場合、バスケットボール選手のレギュラーであることを条件付けると、一般の場合には関係のない「スピード」と「身長の高さ」の間に負の相関が生じることになる。

コライダーについてのより重要な例

第\(5\)章から。サンフランシスコで一万五千人を超える新生児について、母親の出生前の喫煙歴と子の出生児との関係が調査された。母親が喫煙者だと新生児の体重は少なることは既に知られていた。ところが、驚くべきことに、喫煙者の母親から生まれた低出生体重児の死亡率は、非喫煙者の母親から生まれた低出生体重児よりも低かったのである。まるで母親の喫煙が新生児を守る効果があったかのようである。このデータの解釈はどのようにすればよいのだろうか？

ここであげられている要素は、「母親の喫煙」「出生時の体重」および「新生児の死亡率」である。実は、ある要素を付け加えると、この一種のパラドックが解消される。

付け加える要素とは、「先天異常」である。つまり、ここでは「出生時の体重」がコライダーになっていたのである。低体重だった新生児だけをみると、コライダーについて条件付を行ってしまうことになる。すると、「母親の喫煙」と「新生児の死亡率」との間に下図のような経路が開かれる。

この経路は非因果的なものであるが、母親の喫煙と死亡率の間に擬似的な相関関係が入り込む。このバイアスが大きいため、母親の喫煙をまるで良いことのように考えてしまう。

モンティ・ホール問題

第6章では有名なモンティ・ホール問題についても取り上げられている。以下のテーブルの考え方が、最もわかりやすい。このテーブルでは、最初にドア1を選んだことが前提になっている。

ドア1	ドア2	ドア3	ドアを変えたときの結果	ドアを変えなかったときの結果
賞金	失敗	失敗	賞金を獲得できず	賞金を獲得
失敗	賞金	失敗	賞金を獲得	賞金を獲得できず
失敗	失敗	賞金	賞金を獲得	賞金を獲得できず

モンティ・ホール問題についてのわかりやすいテーブル。

最初の時点では賞金を獲得できる確率はいずれも\(\displaystyle \frac{1}{3}\)であるが、ドア1を選んだ後に選択を変えると、賞金獲得の確率は\(\displaystyle \frac{2}{3}\)になり、ドア1のままだと\(\displaystyle \frac{1}{3}\)になる。この本で面白いのは、ここでも半現実的な考え方を導入して、この問題についての理解を深めていることである。今度は、司会者は出場者の選ばなかったドアのうち、ランダムにドアを開くことにしてみる。仮に賞金が隠されているドアを開けた場合、残念ながら出場者は賞金を貰えない。この場合も出場者はドア1を選ぶものとしておく。

出場者の選んだドア	賞金の置かれたドア	司会者が開くドア	ドアを変えたときの結果	ドアを変えなかったときの結果
1	1	2（失敗）	賞金を獲得できず	賞金を獲得
1	1	3（失敗）	賞金を獲得できず	賞金を獲得
1	2	2（賞金）	賞金を獲得できず	賞金を獲得できず
1	2	3（失敗）	賞金を獲得	賞金を獲得できず
1	3	2（失敗）	賞金を獲得	賞金を獲得できず
1	3	3（賞金）	賞金を獲得できず	賞金を獲得できず

モンティ・ホール問題についての半現実的な考え。

この場合、ドアを変更してもしなくても、有利にはならない。ここでの教訓は、「情報をどのように得たかは、情報そのものと同じくらい重要である」ということになる。ここでもDAGを描くと、以下のように2つの対比がより鮮明になる。

つまり、左側では司会者のドアの選択がコライダーとなっている。コライダーを条件づけたことにより、見せかけの従属関係が生じてしまうのだ。

コライダーについてその他の例

さらに、バークソンのパラドックスも取り上げられている。

ここであげられていたのが、2枚のコインを同時に投げる実験である。\(100\)回コインを投げて、どちらか一方、あるいは両方とも表だった場合のみに記録する（つまり、両方裏の場合は記録しない）。結果を見ると、2枚のコインの表裏は独立してない。コイン1が裏だとコイン2が毎回表になっている。これは、両方裏の場合を記録しないという条件づけを行うことで、コライダーを作り出しているのだ。

この言い換えとして面白かったのが、「外見が魅力的な人ほど、デートをしてみると人柄が悪い」というものがある。これは、外見と人柄という2つの要素のうち、両方が良ければ良いが、どちらかだけを選んでデートに誘っているから起こるのである（外見も人柄も悪い人は最初からデートに誘わない）。つまり、「外見が良い（けど人柄は悪い）」「人柄が良い（けど外見は悪い）」あるいは「外見も人柄も良い」人のみを事象として対象にしており、「外見も人柄も悪い」人ははじめから排除されてており、外見と人柄の間に負の相関が生じているのである。

シンプソンのパラドックス

シンプソンのパラドックスについても触れられていた。ここでは以下のような表が掲載されていた。

	対照群		介入群
	心臓発作	心臓発作なし	心臓発作	心臓発作なし
女性	1	19	3	37
男性	12	28	8	12
合計	13	47	11	49

シンプソンのパラドックス

薬を飲んだ女性（介入群）では、心臓発作の発生率は\(\displaystyle \frac{3}{40} = 7.5\%\)であり、男性では\(\displaystyle \frac{8}{20} = 40.0\%\)となる。一方薬を飲まなかった（対照群）の女性では、心臓発作の発生率は\(\displaystyle \frac{1}{20} = 5.0\%\)であり、男性では\(\displaystyle \frac{12}{40} = 30.0\%\)となる。これだけを見ると、男性でも女性でも薬を飲む方が心臓発作がより多く起きているように見える。ところが、全体を考えると、介入群では心臓発作の発生率は\(\displaystyle \frac{11}{60} = 18.3\%\)で、対照群では\(\displaystyle \frac{13}{60} = 21.7\%\)となり、薬は集団全体では心臓発作のリスクを低減させているように見える。この解決方法は、以下のDAGに示されている。

ここで、性別は薬の内服と心臓発作にとって交絡因子になっている。これを調整するためには、男性のデータと女性のデータを個別に見て、平均を取る必要がある。
・女性が心臓発作を起こす確率は介入群で\(7.5\%\)、対照群で\(5.0\%\)。男性が心臓発作を起こす確率は介入群で\(40\%\)、対照群で\(30\%\)である。
・全人口に占める男女の割合はほぼ同じなので、心臓発作を起こす確率の平均は、介入群で\(\displaystyle \frac{7.5+40}{2} = 23.5\%\)、対照群で\(\displaystyle \frac{5+30}{2} = 17.5\%\)となる。薬の内服は、男性でも女性でも良くない。

さらに、別の薬を考える。

	対照群		介入群
	心臓発作	心臓発作なし	心臓発作	心臓発作なし
血圧低い	1	19	3	37
血圧高い	12	28	8	12
合計	13	47	11	49

上記とは別の薬。

全く一緒の表であるが、得られる結論は反対になる。この薬（ドラッグBとする）を内服すると、患者の血圧は低下し、心臓発作も確かに全体のデータで低下している。この場合は、性別という交絡因子がなく、調整を行う必要がないから、データを個別に分ける必要がない。ドラッグBは心臓発作のリスクの高いグループから低いグループに人を移動させる作用を及ぼしている。このDAGは以下のようになる。

ここでわかることは、重要なのは状況の因果構造であるということで、統計データ（データを集約した場合でも、個別に見た場合でも）の一つの傾向を見ただけでは因果関係を正しく理解できないということである。データを集約した場合のほうが、個別に見た場合よりも因果関係が大きくなる場合、背後に交絡因子が存在している可能性は高い。以下のWikipediaのグラフもシンプソンのパラドックスをわかりやすく説明している。

https://upload.wikimedia.org/wikipedia/commons/f/fb/Simpsons_paradox_-_animation.gif

つまり、全体としては負の関係にあるように見えるが、層別化してみると、関係が逆転するように見える。この場合、例えば年齢などが交絡因子になっていると考えるとわかりやすくなる。

交絡因子の定義

そもそも交絡因子とは何か、についても、著者は明確な答えを与えている。上記で定義したDo演算子を用いて、交絡因子を\(P(Y|X) \ne P(Y|do(X))\)を起こすもの、と定義する。この定義を用いると、データの性質や手続き的な作業から交絡因子を定義することは難しい。より臨床的な知見や、因果関係においての知識が必要となる。

ジョン・スノウの操作変数法

７章ではより興味深い例が取り上げられている。有名なジョン・スノウの話である。当時、スノウの節に反対を唱える人は、コレラの原因を「瘴気」と呼ばれる汚れた空気だと考えていた。これは、測定ができない。ここでスノウが着目したのは、水道会社であった。ロンドン市内には2つの水道会社から水の供給を受けている地域があった。A社から供給を受けている世帯では、B社から供給を受けている世帯に比べて死亡率が高かった。スノウは以下の様に書いている。「二社のパイプは地域のすべての通り、すべての建物や路地の下を通っている。二つの水道会社は、富める者にも貧しい者にも、大きな家にも小さな家にも同じように水を供給していた。どちらの会社の水を利用している者も、生活条件や職業に大きな違いがあったわけではない」