Causal Inference: What if
2章から。
1章はこちら。
Causal Inference: What if
Part I Causal inference without models
Chapter 2 A DEFINITION OF CAUSAL EFFECT
あなたが空を見上げると、他の歩行者も空を見上げるか?この問いは、因果関係のある問いの主な構成要素を持っている。特定の集団(例えば、2019年のマドリードの住民)において、ある行動(あなたが見上げること)がある結果(他の人々が見上げること)に影響を与えるかどうかを知りたいのである。この問いに答えるための科学的研究をデザインするよう、私たちがあなたに挑戦するとしよう。「歩道に立って、誰かが近づくたびにコインをはじく。表が出たら顔を上げ、裏が出たらまっすぐ前を見る。この実験を数千回繰り返す。私が上を向いてから10秒以内に上を向いた歩行者の割合が、私が上を向かなかったときに上を向いた歩行者の割合より多ければ、私が上を向くことは他の人が上を向くことに因果関係があると結論づける。ちなみに、私が見上げている間の人々の行動を記録するアシスタントを雇うかもしれない」。 この調査を実施した結果、あなたが上を見ているときには55%の歩行者が上を見ていたが、あなたがまっすぐ前を見ているときには1%しか上を見ていなかった。私たちの課題に対するあなたの解決策は、無作為化実験を行うことである。調査者(あなた)が関心のある行動(見上げる)を行ったのは実験であり、どの調査対象者(歩行者)に対して行動するかはランダムな装置(コインめくり)によって決定されたのでランダム化された。すべての実験が無作為であるわけではない。たとえば、男性が近づいてきたら顔を上げ、女性が近づいてきたらまっすぐ前を見るということもできただろう。そうすれば、行動の割り当てはランダムなメカニズムではなく、決定論的なルール(男性は上、女性はまっすぐ)に従ったことになる。しかし、無作為でない実験を行っていれば、あなたの発見はほとんど説得力を持たなかっただろう。もしあなたの行動が歩行者の性別によって決定されていたとしたら、批判者は男女の「見上げる」行動は異なる(あなたが見上げたら、女性は男性よりも見上げる頻度が低いかもしれない)ので、あなたの研究は本質的に「比較できない」人々のグループを比較したと主張できるだろう。本章では、なぜ無作為化が説得力のある因果推論をもたらすのかについて説明する。
2.1 Randomization
現実の研究では、ゼウスの潜在的な治療が行われた結果\(Y^{a = 1}\)と治療が行われなかった結果\(Y^{a = 0}\)の両方を知ることはできない。そうではなく、彼がたまたま受けた治療値\(A\)の下での観察結果\(Y\)だけを知ることができる。表2.1は、20人の集団について利用可能な情報を要約したものである。各個人について、2つの反実仮想結果のうち1つだけがわかっている。他の反実仮想結果についてはデータが欠落している。前章で議論したように、効果測定を計算するためには、両方の反事実的結果の値が必要であると思われるので、この欠損データは問題を引き起こす。表2.1のデータは、関連尺度を計算するのに適しているだけである。
\(A\) | \(Y\) | \(Y^0\) | \(Y^1\) | |
Rheia | 0 | 0 | 0 | ? |
Kronos | 0 | 1 | 1 | ? |
Demeter | 0 | 0 | 0 | ? |
Hades | 0 | 0 | 0 | ? |
Hestia | 1 | 0 | ? | 0 |
Poseidon | 1 | 0 | ? | 0 |
Hera | 1 | 0 | ? | 0 |
Zeus | 1 | 1 | ? | 1 |
Arthemis | 0 | 1 | 1 | ? |
Apollo | 0 | 1 | 1 | ? |
Leto | 0 | 0 | 0 | ? |
Ares | 1 | 1 | ? | 1 |
Athena | 1 | 1 | ? | 1 |
Hephaestus | 1 | 1 | ? | 1 |
Aphrodite | 1 | 1 | ? | 1 |
Cyclope | 1 | 1 | ? | 1 |
Persephone | 1 | 1 | ? | 1 |
Hermes | 1 | 0 | ? | 0 |
Hebe | 1 | 0 | ? | 0 |
Dinysus | 1 | 0 | ? | 0 |
無作為化実験は、他の現実世界の研究と同様に、表2.1に示すように、反実仮想結果の欠損値を含むデータを生成する。しかし、無作為化によって、これらの欠損値が偶然に発生したものであることが保証される。その結果、欠測データにもかかわらず、ランダム化実験でも効果測定を計算することができる。より厳密に言えば、一貫して推定することができる。より正確に言おう。
図1.1の菱形で表される母集団が無限に近く、そのような母集団の各個体についてコインを1枚ずつひっくり返したとしよう。コインの表が出ればその人を白グループに、表が出れば灰色グループに振り分けた。なぜなら、表が出る確率は50%以下であり、白グループよりも灰色グループに入る人の方が少なかったからである。次に、研究補助者に、白色グループの人には目的の治療\(A = 1\)を、灰色グループの人にはプラセボ\(A = 0\)を投与するよう依頼した。5日後の研究終了時に、各群の死亡リスクを計算した。\(\text{Pr}[Y = 1|A = 1] = 0.3\)、\(\text{Pr}[Y = 1|A = 0] = 0.6\)。関連リスク比は\(0.3/0.6 = 0.5\)、関連リスク差\(0.3 – 0.6 = -0.3\)である。ここで打ち切りがないこと、試験期間中、割り付けられた治療が完全に遵守されていること、治療が単一バージョンであること、割り付けが二重盲検であることを仮定している(第9章参照)。理想的なランダム化実験は非現実的であるが、因果推論に重要な概念を導入するのに有用である。本書の後半では、より現実的なランダム化実験を検討する。
ここで、もし研究助手が私たちの指示を誤って解釈し、白色グループではなく灰色のグループを治療していたらどうなっていたか想像してみよう。研究終了後にその誤解を知ったとしよう。この治療状況の逆転は、結論にどのような影響を与えるだろうか?全く影響はない。治療群(現在は灰色群)のリスク\(\text{Pr}[Y = 1|A = 1]\)は\(0.3\)、未治療群(現在は白色群)のリスク\(\text{Pr}[Y = 1|A = 0]\)は\(0.6\)である。関連性の尺度は変わらない。個人は白色群と灰色群に無作為に割り付けられたので、曝露された人の死亡の割合\(\text{Pr}[Y = 1|A = 1]\)は、白色群の人が治療を受けても灰色群の人がプラセボを受けても、あるいはその逆でも同じになると予想される。グループ・メンバーシップが無作為化されている場合、どの特定のグループが治療を受けたかは、\(\text{Pr}[Y = 1|A = 1]\)の値とは無関係である。もちろん、同じ推論が\(\text{Pr}[Y = 1|A = 0]\)にも当てはまる。形式的には、我々はグループが交換可能であると言う。
交換可能性とは、白色群の個体が灰色群の個体に与えられた治療を受けていれば、白色群の死亡リスクは灰色群の死亡リスクと同じであっただろうということである。すなわち、治療された人々の潜在的治療値\(a\)の下でのリスク、\(\text{Pr}[Y^a = 1|A = 1]\)は、\(a = 0\)と\(a = 1\)の両方について、未治療の人々の潜在的治療値\(a\)の下でのリスク、\(\text{Pr}[Y^a = 1| A= 0]\)に等しい。これらの(条件付き)リスクが集団の治療状態によって定義されたすべての部分集合で等しいことの明らかな帰結は、それらが集団全体の治療値\(a\)の下で(周辺)リスクと等しくなければならないということである。つまり、\(\text{Pr}[Y^a = 1| A= 1] = \text{Pr}[Y^a = 1 | A = 0] = \text{Pr}[Y^a = 1]\)である。治療値\(a\)の下での反実仮想リスクは,\(A = 1\)と\(A = 0\)の両群で同じなので、実際の治療は反実仮想結果\(Y^a\)を予測しないと言う。同様に、交換可能性とは、すべての値\(a\)について、反事実的結果と実際の治療が独立であること、つまり\(Y^a \mathop{\perp\!\!\!\!\perp} A\)を意味する。無作為化が非常に高く評価されるのは、それが交換可能性を生み出すと期待されるからである。治療された者と治療されていない者が交換可能であるとき、我々は治療が外生的であると言うことがあり、したがって、外生性は交換可能性の同義語として一般的に使用される。
前の段落では、交換可能性が存在する場合、集団の白グループ部分における治療下の反事実的リスクは、集団全体における治療下の反事実的リスクと等しくなると論じた。しかし、白グループの治療下のリスクは、白グループが実際に治療を受けたので、反実仮想的ではまったくない!したがって、われわれの理想的な無作為化実験では、母集団における治療下の反事実リスク\(\text{Pr}[Y^{a = 1} = 1]\)を計算することができる。なぜなら、それは被治療者におけるリスク\(\text{Pr}[Y = 1 | A = 1] = 0.3\)に等しいからである。つまり、治療された人(ひし形の白い部分)のリスクは、全員が治療された場合(したがって、ひし形がすべて白かった場合)のリスクと同じである。もちろん、同じ理論的根拠が未治療者にも当てはまる。集団における無治療下の反事実リスク\(\text{Pr}[Y^{a = 0} = 1]\)は、未治療者におけるリスク\(\text{Pr}[Y = 1| A = 0] = 0.6\)に等しい。因果リスク比は\(0.5\)、因果リスク差は\(-0.3\)となる。理想的なランダム化実験では、関連は因果である。
Technical Point 2.1 「完全交換性と平均交換性。」
ランダム化は、\(Y^a\)を\(A\)から独立したものにする。これは、各\(a\)の交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)を意味するが、逆は成り立たない。形式的には、\(A = \{a, a^{\prime}, a^{\prime\prime}\cdots\}\) は母集団に存在するすべての治療値の集合を表し、\(Y^A = \{Y^{a}, Y^{a^{\prime}}, Y^{a^{\prime\prime}, \cdots}\}\)はすべての反事実結果の集合を表す。無作為化は、\(Y^A \mathop{\perp\!\!\!\!\perp} A\)を作る。この共同独立性を完全交換性と呼ぶ。二項処理の場合、\(A = \{0, 1\}\)であり、完全交換可能性は \((Y^{a = 1}, Y^{a = 0})\mathop{\perp\!\!\!\!\perp} A\)である。二値の結果と治療では、交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)は、\(\text{Pr}[Y^a = 1 | A = 1] = \text{Pr}[Y^a = 1 | A = 0]\)、 または、等価的に\(\text{E}[Y^a| A = 1] = \text{E}[Y^a | A = 0]\ \ \forall a\)として書くこともできる。最後の等式を平均交換性と呼ぶ。連続的な結果の場合、交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)は、平均交換可能性\(E[Y^a | A = a^{\prime}] = E[Y^a]\)を意味するが、平均以外の分布パラメータ(例えば分散)は治療から独立していないかもしれないので、平均交換可能性は交換可能性を意味しない。\(E[Y^a] = E[Y| A = a]\)を証明するためには、完全交換性\(Y^A \mathop{\perp\!\!\!\!\perp} A\)も交換性\(Y^{a} \mathop{\perp\!\!\!\!\perp} A\)も必要ない。平均交換性で十分である。本文で描写したように、証明には2つのステップがある。まず、整合性によって\(E[Y | A = a] = E[Y^a | A= a]\)となる。第二に、平均交換可能性によって、\(E(Y^a | A = a) = E[Y^a]\)となる。交換可能性と平均交換可能性は終始同一の「交換可能性」である。本章で使用される二値の結果については、より短い用語を使用する。
ランダム化実験における交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)のもう一つの説明がある。反実仮想的な結果\(Y^a\)は、自分の遺伝的体質のように、治療\(A\)が無作為に割り当てられる前から存在する、その人の固定された特性であると考えることができる。というのも、\(Y^a\)は、もし治療\(A\)に割り当てられたとしたら、その人の結果がどうなっていたかを符号化したものであり、したがって、後に受ける治療には依存しないからである。治療\(A\)は無作為に割り付けられたので、あなたの遺伝子と\(Y^a\)の両方から独立している。\(Y^a\)とあなたの遺伝的体質との違いは、概念的にも、治療が行われた後にしか\(Y^a\)の値を知ることができないことであり、それは自分の治療\(A\)が\(a\)と等しい場合に限られる。
先に進む前に、\(Y^a \mathop{\perp\!\!\!\!\perp} A\)と\(Y \mathop{\perp\!\!\!\!\perp} A\)の違いを理解しているか確認する。交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)は、反実仮想結果と観察された治療との間の独立性として定義される。ここでも、これは、治療者と未治療者が同じ治療レベル(\(a = 0\)または\(a = 1\)のいずれか)を受けた場合、同じ死亡リスクを経験したであろうことを意味する。しかし、反実仮想結果と観察された治療\(Y^a \mathop{\perp\!\!\!\!\perp} A\)との間の独立性は、観察された結果と観察された治療\(Y \mathop{\perp\!\!\!\!\perp} A\)との間の独立性を意味しない。例えば、交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)が成立し、治療が結果に因果効果を持つ無作為化実験では、治療が観察された結果と関連しているので、\(Y \mathop{\perp\!\!\!\!\perp} A\)は成立しない。
表2.1の心臓移植研究において、交換可能性は成り立つだろうか?この問いに答えるには、\(Y^a \mathop{\perp\!\!\!\!\perp} A\)、\(a = 0\)のときと、\(a = 1\)のときに成り立つかどうかをチェックする必要がある。まず、\(a = 0\)とする。表1.1の反事実データが入手可能であるとする。そして、治療を受けた13人の無治療下での死亡リスク\(\text{Pr}[Y^{a = 0} = 1 | A = 1] = 7/13\)、治療を受けなかった7人の無治療下での死亡リスク\(\text{Pr}[Y^{a = 0} = 1 | A = 0] = 3/7\)を計算することができる。無治療での死亡リスクは、治療された人の方が未治療の人よりも大きいので、すなわち、\(7/13 > 3/7\)であるから、治療された人の方が未治療の人よりも予後が悪い、すなわち、治療された人と未治療の人は交換可能ではないと結論づけられる。数学的には、私たちは交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)が\(a = 0\)で成立しないことを証明した。(\(a = 1\)でも成立しないことを証明できる)。したがって、この段落の冒頭の質問に対する答えは「No」である。
Fine Point 2.1 「クロスオーバー実験」
稲妻の使用\(A\)が Zeus の血圧\(Y\)に及ぼす個別因果効果を推定したいとする。私たちは、落雷を呼んだ後または呼ばなかった後に Zeus の血圧が一時的に上昇した場合、反実仮想結果\(Y^{a = 1}\)および\(Y^{a = 0} \)をそれぞれ 1 と定義する。私たちがゼウスに、私たちが提案したときだけ稲妻を使うように説得したとする。昨日の朝、私たちはゼウスに落雷を呼ぶように頼んだ(\(a = 1\))。その結果、彼の血圧は上昇した。今朝、私たちはゼウスに稲妻の使用を控えるように頼んだ(\(a = 0\))。彼の血圧は上昇しなかった。我々は、個人の結果が2つの処置値の下で順次観察されるクロスオーバー実験を行った。Zeus の反事実的結果\(Y^{a = 1} = 1\)と\(Y^{a = 0} = 1\)の両方を観察したので、稲妻を使うことは Zeus の血圧に因果的効果があると主張するかもしれない。しかし、我々は、次の段落で与えられる非常に強い仮定1)-3)が真でない限り、彼の議論は一般的に正しくないことを示す。クロスオーバー実験では、$t=0$と$t=1$の2つ以上の期間に個体が観察される。個体 $i$ は各期間 $t$ で異なる処理値 $A_{i t}$ を受ける。個人 $i$ が $t=1$ のときに $a_1$ で治療され、 $t=0$ のときに $a_0$ で治療された場合の、 $t=1$ での(決定論的な)反事実結果を $Y_{i 1}^{a_0 a_1}$ とする。$t=0$ の場合も同様に $Y_{i 0}^{a_0}$ と定義する。$Y_{i t}^{a_t=1}-Y_{i t}^{a_t=0}$ は次の3つの条件が成立すれば同定できる: i) 治療のキャリーオーバー効果がない: $Y_{i t=1}^{a_0, a_1}=Y_{i t=1}^{a_1}$, ii) 個々の因果効果が時間に依存しない: $Y_{i t}^{a_t=1}-Y_{i t}^{a_t=0}=\alpha_i$ for $t=0,1$, iii) 無治療の場合の反事実結果は時間に依存しない: $Y_{i t}^{a_t=0}=\beta_i$ for $t=0,1$. この条件で、時間$\left(A_{i 1}=0\right)$で治療され、時間$\left(A_{i 0}=1\right)$で治療されないとすると、整合性により、$Y_{i 1}^{a_t}=\beta_i$ となる、 $Y_{i 1}-Y_{i 0}$は、$Y_{i 1}-Y_{i 0}=\alpha_i $なので、個別因果効果である。 $Y_{i 0}^{a_0=0}=Y_{i 1}^{a_1=1}-Y_{i 1}^{a_1=0}+Y_{i 1}^{a_1=0}-Y_{i 0}^{a_0=0}=\alpha_i+\beta_i-\beta_i=\alpha_i$ なので、$Y_{i 0}$は個別因果効果である。同様に$A_{i 1}=0$, $A_{i 0}=1, Y_{i 0}-Y_{i 1}=\alpha_i$ が個人レベルの因果効果である。条件(i)は、結果$Y_{i t}^{a_t}$ が突然発生し、次の時間帯までに完全に解消することを意味する。したがって、クロスオーバー実験は、不可逆的な結果である死亡に対する不可逆的な作用である心臓移植の効果を研究するためには使えない。ファインポイント3.2も参照。
しかし、現実の世界では、表1.1の反実仮想データではなく、表2.1の観測データしか入手できない。表2.1では、被治療者における無治療下のリスク$\text{Pr}[Y^{a = 0}=1|A=1]$のような反事実的リスクを計算するには不十分であるため、我々の研究において交換能力が成り立つかどうかを判断することは一般的にできない。しかし、実際に表1.1にアクセスし、私たちの心臓移植研究で交換性が成立しないと判断したとしよう。そのとき、私たちの研究は無作為化実験ではないと結論づけられるだろうか?そうではない。それには2つの理由がある。第一に、おそらくすでに考えているとは思うが、20人規模の研究では、明確な結論を出すには規模が小さすぎる。サンプリングのばらつきから生じるランダムな変動は、ほとんど何でも説明することができる。ランダムな変動については第10章で説明する。それまでは、母集団の各個体が、自分と同じ10億の個体であると仮定しよう。第2に、交換可能性が無限標本で成立しなくても、研究が無作為化実験である可能性はある。しかし、このセクションで説明したタイプの無作為化実験とは異なり、調査者が複数のコインを用いてランダムに治療を割り当てる無作為化実験である必要がある。次のセクションでは,複数のコインを用いた無作為化実験について説明する.
2.2 Conditional randomization
表2.2は我々の心臓移植ランダム化研究のデータである。治療\(A\)(移植を受けた場合は\(1\)、そうでない場合は\(0\))と転帰\(Y\)(死亡した場合は\(1\)、そうでない場合は\(0\))のデータのほかに、表2.2には予後因子\(L\)(重症の場合は\(1\)、そうでない場合は\(0\))のデータも含まれている。ここで、2つの互いに排他的な研究デザインについて検討し、表2.2のデータがどちらか一方から得られたものかどうかを議論する。
\(L\) | \(A\) | \(Y\) | |
Rheia | 0 | 0 | 0 |
Kronos | 0 | 0 | 1 |
Demeter | 0 | 0 | 0 |
Hades | 0 | 0 | 0 |
Hestia | 0 | 1 | 0 |
Poseidon | 0 | 1 | 0 |
Hera | 0 | 1 | 0 |
Zeus | 0 | 1 | 1 |
Artemis | 1 | 0 | 1 |
Apollo | 1 | 0 | 1 |
Leto | 1 | 0 | 0 |
Ares | 1 | 1 | 1 |
Athena | 1 | 1 | 1 |
Hephaestus | 1 | 1 | 1 |
Aphrodite | 1 | 1 | 1 |
Cyclope | 1 | 1 | 1 |
Persephone | 1 | 1 | 1 |
Hermes | 1 | 1 | 0 |
Hebe | 1 | 1 | 0 |
Dionysus | 1 | 1 | 0 |
デザイン1では、母集団の65%の個体を無作為に選び、選ばれた個体それぞれに新しい心臓を移植したことになる。そうすれば、20人中13人が治療を受けた理由が説明できる。デザイン2では、全個体をクリティカルな状態(\(L = 1\))か非クリティカルな状態(\(L = 0\))のどちらかに分類した。そして、重症者の75%と非重症者の50%を無作為に選択し、選択された各個人に新しい心臓を移植した。そうすれば、危篤状態の12人中9人、非危篤状態の8人中4人が治療を受けた理由が説明できる。
どちらのデザインも無作為化実験である。デザイン1は、まさにセクション2.1で説明したタイプの無作為化実験である。このデザインでは、すべての個体に治療を割り当てるために、1枚のコインを使う(たとえば、表なら治療、裏なら未治療)。裏が出る確率\(0.65\)の装填されたコインで、その結果65%の個体が治療を受けることになる。デザイン2では、すべての人に1枚のコインを使用せず、危篤状態の個体には、\(0.75\)の確率で裏が出るコインを使い、危篤状態でない個体には、\(0.50\)の確率で裏が出るコインを使う。変数\(L\)の値に依存する(条件付きである)いくつかの無作為化確率を用いるので、デザイン2の実験を条件付き無作為化実験と呼ぶ。すべての個体に共通する単一の無条件(限界)無作為化確率を用いるので、デザイン1の実験を無条件マージナル・ランダマイズ実験と呼ぶ。
前節で論じたように、余裕をもった無作為化実験では、被処理者と無処理者の交換性が生じることが予想される。すなわち、$$\text{Pr}[Y^a = 1 | A = 1] = \text{Pr}[Y^a = 1 | A = 0]\ \ or \ \ Y^a \mathop{\perp\!\!\!\!\perp}A \ \forall a$$
対照的に、条件付き無作為化実験では、デザイン上、各群で予後不良の個体の割合が異なる可能性があるため、治療群と未治療群の交換可能性は一般的には生じない。
したがって、表2.2のデータは、マージナルに無作為化された実験から得られたものではない。なぜならば、治療された群で69%、治療されなかった群で43%が危篤状態にあったからである。このアンバランスは、治療を受けた人の死亡リスクが、治療を受けなかった人の死亡リスクよりも高かったことを示している。つまり、治療\(A\)は治療なしの場合の反事実的死亡リスクを予測し、交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)は成立しない。我々の研究は無作為化実験であったので、この研究は\(L\)を条件とする無作為化実験であったと安全に結論づけることができる。
われわれの条件付き無作為化実験は、単に2つの別々のマージナルな無作為化実験を組み合わせたものである。1つは危篤状態にある個体の部分集合\(L = 1\)で、もう1つは非危篤状態にある個体の部分集合\(L = 0\)で実施されたものである。まず、危篤状態にある個体の部分集合で実施される無作為化実験を考えよう。この部分集合では、治療者と非治療者は交換可能である。形式的には、各治療値\(a\)の下での反事実的死亡リスクは、治療割当次には全員が危篤状態であったことを考えると、治療者と非治療者の間で同じである。つまり、$$\text{Pr}[Y^a = 1 | A = 1, L = 1] = \text{Pr}[Y^a = 1| A= 0, L = 1]\ \ or\ \ Y^a\mathop{\perp\!\!\!\!\perp} A | L = 1 \forall a$$ここで、\(Y^a \mathop{\perp\!\!\!\!\perp} A | L = 1\)は、\(Y^a\)と\(A\)が、\(L = 1\)の場合に独立であることを意味する。同様に、無作為化は、非危篤状態にあった個体の部分集合において、治療者と未治療者が交換可能であることも保証する。すなわち、\(Y^a \mathop{\perp\!\!\!\!\perp} A | L = 0\)である。\(Y^a \mathop{\perp\!\!\!\!\perp} A | L = l\)がすべての値\(l\)について成り立つとき、単に\(Y^a \mathop{\perp\!\!\!\!\perp}A | L\)と書く。したがって、条件付き無作為化は、無条件(またはマージナル)交換性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)を保証しないが、変数\(L\)のレベル内で条件付き交換性\(Y^a \mathop{\perp\!\!\!\!\perp} A | L\)を保証する。つまり、無作為化は、マージナル交換可能性(デザイン1)または条件付き交換性(デザイン2)を生み出す。
私たちは、マージナル交換可能性のもとで効果測定を計算する方法を知っている。限界ランダム化実験では、因果リスク比\(\text{Pr}[Y^{a=1} = 1]/\text{Pr}[Y^{a = 0} = 1]\)は、関連リスク比\(\text{Pr}[Y = 1|A=1]/\text{Pr}[Y = 1 | A= 0]\)に等しい。なぜなら、交換可能性は、治療レベル\(a\)の下での反事実リスク、\(\text{Pr}[Y^a = 1]\)が、治療レベル\(a\)を受けた人々の間で観察されたリスク、\(\text{Pr}[Y = 1|A = a]\)]に等しいことを保証するからである。したがって、もし表2.2のデータが無作為化実験中に収集されたものであれば、\(A\)と\(Y\)のデータから、\(\displaystyle \frac{7/13}{3/7} = 1.26\)として、因果関係のあるリスク比を容易に計算することができるだろう。問題は、条件付き無作為化実験における因果リスク比をどのように計算するかである。条件付き無作為化実験とは、例えば\( L = 1\)と\(L = 0\)のように、母集団の異なる部分集合で実施された2つ(またはそれ以上)の別々のマージン無作為化実験の単純な組み合わせであることを覚えておいてほしい。
まず、これらのサブセットまたは母集団の各層における平均因果効果を計算することができる。各サブセット内では、関連は因果であるので、重篤な状態にある人々の層特異的因果リスク比\(\text{Pr}[Y^{a=1} = 1| L = 1]/\text{Pr}[Y^{a = 0} = 1| L = 1]\)は、重篤な状態にある人々の層特異的関連リスク比 \(\text{Pr}[Y = 1|L = 1, A = 1]/\text{Pr}[Y = 1|L = 1, A = 0]\)に等しい。また、\(L = 0\)についても同様である。我々は、層特異的因果効果を計算するこの方法を層別化と呼ぶ。サブセット\(L = 1\)における層特異的因果リスク比は、\(L = 0\)における因果リスク比と異なる可能性があることに注意する。その場合、治療の効果が\(L\)によって修正される、または\(L\)による効果修正があると言う。
第二に、これまで行ってきたように、母集団全体における平均因果効果\(\text{Pr}[Y^{a = 1} = 1]/\text{Pr}[Y^{a = 0} = 1]\)を計算することができる。我々の主たる関心が、層別の平均因果効果にあるのか、それとも母集団全体の平均因果効果にあるのかは、第4章と第III部で詳細に議論される実際的かつ理論的な考察による。1つの例として、将来の個体について\(L\)に関する情報を得ることが期待できず(例えば、変数\(L\)の測定に費用がかかる)、したがって治療の決定が\(L\)の値に依存することができない場合、層別平均因果効果ではなく、母集団全体の平均因果効果に興味があるかもしれない。第4章までは、母集団全体における平均因果効果に注目することにする。次の2つのセクションでは、母集団全体における平均因果効果を計算するために、条件付き無作為化実験からのデータをどのように使用するかを記述する。
2.3 Standardization
私たちの心臓移植研究は、条件付き無作為化実験である。検証者たちは無作為化手順を用いて、非危篤状態の8人(\(L = 0\))には確率50%で心臓(\(A = 1\))を割り当て、危篤状態の12人(\(L = 1\))には確率75%で心臓(\(A = 1\))を割り当てた。まず、80億人の平均的な代表者である非危篤状態の8人に注目してみよう。このグループでは、治療を受けている人の死亡リスクは\(\displaystyle \text{Pr}[Y = 1|L = 0, A = 1] = \frac{1}{4}\)であり、治療を受けていない人の死亡リスクは\(\displaystyle \text{Pr}[Y = 1|L = 0, A = 0] = \frac{1}{4}\)である。すなわち、\(L=0\)のグループでは治療はランダムに振り分けられており(\(Y^a \mathop{\perp\!\!\!\!\perp} A| L =0\))、観察されたリスクは反事実リスクと等しい。すなわち、\(L = 0\)のグループでは、治療された場合のリスクは、全員が治療された場合のリスク、\(\text{Pr}[Y = 1|L = 0, A = 1] = \text{Pr}[Y^{a=1} = 1|L = 0]\)と等しく、未治療の場合のリスクは、全員が未治療であった場合のリスク、\(\text{Pr}[Y = 1|L = 0, A = 0] = \text{Pr}[Y^{a = 0} = 1|L = 0]\)と等しい。同様の推論に従うと、危篤状態の12人のグループにおいて、観察されたリスクは反事実のリスクと等しいと結論づけることができる。すなわち、\(\displaystyle \text{Pr}[Y =1|L=1, A=1]=\text{Pr}[Y^{a=1} =1|L=1]= \frac{2}{3}\)であり、\(\displaystyle \text{Pr}[Y =1|L=1, A=0]=Pr[Y^{a=0} =1|L=1]= \frac{2}{3}\)である。
今、我々の目的が因果リスク比\(\text{Pr}[Y ^{a=1} =1]/ \text{Pr}[Y^{a=0}=1]\)を計算することであるとする。因果リスク比の分子は、集団の20人全員が治療を受けた場合のリスクである。前の段落から、すべての人が治療を受けた場合のリスクは、\(L = 0\)の8人で\(\displaystyle \frac{1}{4}\)、\(L = 1\)の12人で\(\displaystyle \frac{2}{3}\)であることがわかる。したがって、集団の20人全員が治療を受けた場合のリスクは、\(\displaystyle \frac{1}{4}\)と\(\displaystyle \frac{2}{3}\)の加重平均となる。40%の個人(8人)がグループ\(L = 0\)、60%の個人(12人)がグループ\(L = 1\)なので、加重平均は\(\displaystyle \frac{1}{4}\times 0.4 + \frac{2}{3}\times 0.6 = 0.5\)となる。もし全員が治療を受けていた場合のリスク\(\text{Pr}[Y^{a=1} = 1]\)は\(0.5\)であり、同じ推論に従えば、誰も治療を受けなかった場合のリスク\(\text{Pr}[Y^{ a =0} = 1]\)も\(0.5\)となる。すると因果リスク比は\(0.5/0.5 = 1\)となる。
より正式には、マージナル反事実リスク\(\text{Pr}[Y^{a =1}]\)は、層別リスク\(\text{Pr}[Y^{a =1}|L=0]\)と 層別リスク\(\text{Pr}[Y^{a = 1}|L = 0]\)の加重平均である。重みはそれぞれ、\(L = 0\)および\(L = 1\)を持つ集団の個体の割合に等しい。すなわち、\(\text{Pr}[Y^{a = 1}] = \text{Pr}[Y^{a = 1}|L = 0]\text{Pr}[L = 0] + \text{Pr}[Y^{a =1}|L=1]Pr[L=1]\)である。あるいはより簡潔な表記法を使って、\(\displaystyle \text{Pr}[Y^{a =1}]= \sum_{l}{\text{Pr}[Y^{a} = 1|L = l]\text{Pr}[L = l]}\)である。ここで\(\displaystyle \sum_{l}\)は,母集団に出現するすべての値\(l\)の和を意味する。条件付交換可能性によって、上記の式において、反事実的リスク\(\text{Pr}[Y^a = 1| L =l]\)を観察されたリスク\(\text{Pr}[Y = 1|L = l, A = a]\) で置き換えることができる。すなわち、\(Pr[Y^a = 1] = \sum_{l}{Pr[Y = 1|L = l, A= a]\text{Pr}[L = l]}\) である。この等式の左辺は未観測の反事実的リスクであるのに対し、右辺は観測された量のみを含む。ここでのように、反事実量が観測データの分布(すなわち確率)の関数として表現できる場合、その反事実量は同定されている、あるいは同定可能であると言い、そうでない場合、それは同定されていない、あるいは同定不可能であると言う。
上記の方法は、疫学、人口学、その他の学問分野では標準化として知られている。例えば、因果リスク比の分子\(\displaystyle \sum_{l}{\text{Pr}[Y = 1|L = l, A = 1] \text{Pr}[L = l]}\) は、母集団を標準とした被治療者の標準化リスクである。条件付変化可能性が存在する場合、この標準化リスクは、集団のすべての個体が治療を受けていたら観察されたであろう(反実仮想)リスクと解釈できる。
治療を受けた場合と受けていない場合の標準化リスクは、それぞれ治療を受けた場合と受けていない場合の反事実リスクと等しい。したがって,因果リスク比\(\displaystyle \frac{\text{Pr}[Y^{a=1} = 1]}{\text{Pr}[Y^{a = 0} = 1]}\)は、標準化によって\(\displaystyle \frac{\sum_{l}{\text{Pr}[Y = 1| L = l, A= 1]\text{Pr}[L = l]}}{\sum_{l}{\text{Pr}[Y = 1| L = l, A= 0]\text{Pr}[L = l]}}\)として計算できる。
2.4 Inverse probability weighting
前節では、条件付き無作為化実験における因果リスク比を標準化によって計算した。本節ではこの因果リスク比を逆確率加重によって計算する。表2.2のデータは、図2.1のように20個体すべてが左から始まり、時間とともに右に向かって進むツリーとして表示できる。ツリーの一番左の円は、最初の分岐を含む。8個体が非危篤状態(\(L = 0\))、12個体が危篤状態(\(L = 1\))であった。カッコ内の数字は、非危篤状態である確率\(\text{Pr}[L = 0] = 8/20 = 0.4\)、または危篤状態である確率\(\text{Pr}[L = 1] = 12/20 = 0.6\)である。たとえば、\(L = 0\)という枝をたどってみよう。この枝の8個の個体のうち、4個体が未治療で(\(A = 0\))、4個体が治療を受けている(\(L = 1\))。未治療の条件付き確率は、括弧内に示すように、\(\text{Pr} [A = 0|L = 0] = 4/8 = 0.5\)である。治療される条件付き確率\(\text{Pr}[A = 1|L = 0]\)は\(0.5\)である。右上の円は、枝の4個体(\(L = 0, A = 0\))のうち、3個体が生き残り(\(Y = 0\))、1個体が死亡した(\(Y = 1\))ことを表している。すなわち、\(\text{Pr}[Y =0|L=0, A=0] = 3/4\) と\(\text{Pr}[Y = 1|L = 0, A = 0] = 1/4\)である。木の他の枝も同様に解釈される。円は、非治療変数によって定義された分岐を含む。我々は今、この木を使って因果リスク比を計算する。
Fine Point 2.2 「リスク期間」
リスクは、ある期間中に目的の結果を発症する個人の割合と定義した。例えば、治療された人の5日間の死亡リスク\(\text{Pr}[Y = 1|A = 1]\)は、治療された人のうち、追跡期間の最初の5日間に死亡した人の割合である。この本では、リスクが最初に定義された期間(例えば、5日間)を指定し、簡潔にするために、後で省略することが多い。つまり、”5日間の死亡リスク “ではなく “死亡リスク “と言うこともある。次の例は、リスク期間を特定することの重要性を強調している。ペスト菌に感染した高齢者の死亡率に対する抗生物質治療の因果効果を定量化するために無作為実験が行われたとする。ある調査者がデータを分析し、因果関係のリスク比は\(0.05\)、すなわち平均して抗生物質は死亡率を95%減少させると結論づけた。もう一人の研究者もデータを分析したが、因果関係のあるリスク比は\(1\)、すなわち抗生物質は死亡率に平均して無効な因果関係を持つと結論した。どちらの調査者も正しい。最初の研究者は1年リスクの比率を計算し、2番目の研究者は100年リスクの比率を計算した。もちろん100年リスクは治療を受けたかどうかに関係なく1である。ある治療が死亡率に因果効果を持つと言う場合、その治療によって死亡が予防されるのではなく、遅延されることを意味する。
原因リスク比の分母、\(\text{Pr}[Y^{a =0}=1]\)は、集団の全員が治療を受けずにいた場合の、実際の死亡リスクである。このリスクを計算してみよう。図2.1では、\(L = 0\)の8人中4人が未治療で、そのうち1人が死亡した。\(L = 0\)の8人が未治療のままだったら、何人の死亡者が出ただろうか?もし4人ではなく8人が未治療のままであったなら、1人の死亡ではなく2人の死亡が観察されたであろうから、2人の死亡である。個体数が2倍になれば、死亡数も2倍になる。図2.1では、\(L = 1\)12人中3人が未治療で、そのうち2人が死亡した。\(L = 1\)の12人が未治療のままだったら、何人の死亡者が出ただろうか?12人は\(3\times 4\)なので、8人の死亡、または2人の死亡の4倍である。つまり、集団の8+12=20人全員が未治療であったなら、2+8=10人が死亡したことになる。因果リスク比\(\text{Pr}[Y^{a =0}=1]\)の分母は\(10/20 = 0.5\)である。図2.2の最初のツリーは、全員が治療を受けなかった場合の集団を示している。もちろん、これらの計算は、\(L = 0\)の治療を受けた人が、もし未治療のままであったなら、実際に未治療のままであった人と同じ死亡確率であっただろうという条件に依存している。この条件は、まさに\(L = 0\)が与えられた場合の交換可能性である。
因果リスク比\(\text{Pr}[Y^{ a=1} =1]\)の分子は、集団の全員が治療を受けていた場合の反事実的な死亡リスクである。前項と同様に推論すると、このリスクは\(L = 1\)、という交換可能性のもとで、\(10/20 = 0.5\)と計算される。図2.2の2番目のツリーは、すべての人が治療を受けていた場合の集団を示している。これと前の段落の結果を組み合わせると、因果リスク比\(\text{Pr}[Y{a =1} = 1]/ \text{Pr}[Y^{a =0} = 1]\)は\(0.5/0.5 = 1\)に等しい。これで終わりである。この方法がどのように機能するかを見てみよう。図2.2の2つの木は、それぞれ集団のすべての個体が無処置と処置を受けていたらどうなったかというシミュレーションである。これらのシミュレーションは、条件付交換可能性のもとでは正しい。両方のシミュレーションをプールして、すべての個体が治療された個体としても、治療されていない個体としても現れる仮想集団を作成することができる。この仮想集団は、元の集団の2倍の大きさで、擬似集団として知られている。図2.3は擬似集団の全体を示している。もとの集団における条件付交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A| L\)のもとでは、\(L\)は\(A\)から独立しているので、擬似集団では治療者と未治療者は(無条件に)交換可能である。すなわち、擬似集団における関連リスク比は、擬似集団と元の集団の両方における因果リスク比に等しい。
この方法は逆確率(IP)重み付けとして知られている。その理由を知るために、例えば図2.1の集団の中で\(L = 0\)の4人の未処置個体を見てみよう。これらの個体は、図2.3の擬似集団の8人のメンバーを作るのに使われる。つまり、それぞれの個体には2の重みが与えられ、これは\(1/0.5\)に等しい。同様に、図2.1の\(L = 1\)の9人の治療された個体は、擬似母集団の12人のメンバーを作成するために使われる。つまり、それぞれの個体は\(1.33 = 1/0.75\)の重みを受ける。図2.1は、\(0.75\)が、\(L = 1\)が与えられたときに治療される条件付き確率であることを示している。非公式には、擬似母集団は、母集団内の各個人を、彼女が実際に受けた治療レベルを受ける条件付確率の逆数で重み付けすることによって作成される。これらのIP重みを図2.3に示す。
IP重み付けは、標準化と同じ結果をもたらした。これは偶然の一致ではない。標準化とIP重み付けは数学的に等価である(技術的ポイント2.3参照)。実際、標準化もIP重み付けも、すべての個体が治療\(a\)を受ける新しいツリーを構築する手順とみなすことができる。それぞれの方法は、反実仮想ツリーを構築するために異なる確率のセットを使用する。IP重み付けは、(図2.1に示すように)共変量\(L\)が与えられたときの治療\(A\)の条件付き確率を用い、標準化は、共変量\(L\)の確率と、\(A\)と\(L\)が与えられたときの結果\(Y\)の条件付き確率を用いる。
標準化とIP重みづけの両方が、もし変数(またはベクトル内の変数)\(L\)が治療の確率を決定するのに使われなかったとしたら観察されたであろうことをシミュレートするので、我々はしばしば、これらの方法は\(L\)を調整すると言う。少し言葉を乱用して、これらの手法は\(L\)をコントロールしていると言うこともあるが、この “分析的コントロール “は、無作為化実験における “物理的コントロール “とはまったく異なるものである。標準化とIP重み付けは、連続的な結果を伴う条件付き無作為化試験に一般化できる(Technical Point2.3参照)。
なぜ本書をここで終わらせないのか?適切な分析方法(標準化やIP重み付け)と組み合わせれば、平均的な因果効果を計算することができる研究デザイン(理想的な無作為化実験)がある。残念なことに、ランダム化実験はしばしば非倫理的であったり、非現実的であったり、タイムリーでなかったりする。例えば、倫理委員会がわれわれの心臓移植研究を承認したかどうかは疑わしい。心臓は供給不足であり、社会はレシピエント候補の中から無作為に割り当てるよりも、移植から利益を得る可能性の高い個人に割り当てることを好む。また、倫理的な問題を無視したとしても、この研究の実現可能性に疑問を抱く人もいるだろう。二重盲検での割り当ては不可能であり、内科的治療に割り当てられた人は移植を見送ることを辞さないかもしれないし、移植に割り当てられた人に適合する心臓がないかもしれない。仮にこの研究が実行可能であったとしても、完了までには数年かかり、その間に決断を下さなければならない。多くの場合、観察研究を行うことが最も悪い選択肢である。
Technical Point 2.3 「IPの重み付けと標準化の同等性」
\(A\)は有限個の値を持つ離散変数であり、\(f[a \mid l]\)は\(\text{Pr}[L=l]\)が\(0\)でないようなすべての\(l\)に対して正であると仮定する。この正の条件は、条件付き無作為化実験において成立することが保証される。正値性のもとでは、治療水準\(a\)の標準化平均は\(\displaystyle \sum_{l} \text{E}[Y \mid A=a, L=l] \text{Pr}[L=l]\)と定義され、治療水準\(a\)の元での\(Y\)のIP加重平均は\(\displaystyle \text{E}\left[ \frac{I(A=a) Y}{f[A \mid L]}\right]\) と定義される、 すなわち、治療値\(A=a\)の個体における\(Y\)の平均を、IP重み\(W^A=1 / f[A \mid L]\)で重み付けしたものである。指標関数\(I(A=a)\)は、\(A=a\)の個体では値\(1\)をとり、それ以外では値\(0\)をとる関数である。ここで、IP加重平均と標準化平均が正値のもとで等しいことを証明する。期待値の定義から、$$\text{E}\left[\frac{I(A = a)Y}{f[A | L]}\right] = \sum_{l}{\frac{1}{f[a|l]} \{\text{E}[Y| A = a, L = l]f[a|l]\text{Pr}[L = l]\}} = \sum_{l}{\{\text{E}[Y|A = a, L = l]\text{Pr}[L = l]\}}$$である。ここで、最後のステップでは、分子と分母から\(f[a|l]\) をキャンセルし、最初のステップでは、\(a\)以外の\(a^{\prime}\)では量\(I(a^{\prime} = a)\)が0なので、\(A\)の取りうる値について和をとる必要はなかった。この証明では、 $A$ と $L$ を離散的なものとして扱うが、必ずしも二項対立である必要はない。連続な $L$ の場合は、$L$ 上の和を積分に置き換えるだけでよい。この証明では、反実仮想や因果関係には言及していない。しかし、さらに条件付き交換可能性を仮定すると、IP加重平均も標準化平均も反実仮想平均\(\text{E}[Y^a]\)に等しくなる。ここでは、この最後の記述の2種類の証明を行う。まず、本文のように\(\text{E}[Y^a]\)と標準化平均の等式を証明する。$$\begin{eqnarray}\text{E}[Y^a] & = & \sum_{l}{\text{E}[Y^a | L = l]\text{Pr}[L = l]}\\ & = &\sum_{l}{\text{E}[Y^a| A = a, L = l]\text{Pr}[L = l]}\\ & = & \sum_{l}{\text{E}[Y | A = a, L = l]\text{Pr}[L = l]}\end{eqnarray}$$ここで、2番目の等式は条件交換可能性と正値性、3番目は一貫性による。次に、\(\text{E}[Y^a]\)とIP加重平均の等式を以下のように証明する。一貫性により\(\displaystyle \text{E}\left[\frac{I(A = a)}{f[A|L]}Y\right]\)と\(\displaystyle \text{E}\left[\frac{I(A = a)}{f[A|L]}Y^a\right]\)が等しい。次に正値性によって\(f[a \mid L]\) が決して0でないことを含意するので、$$\begin{eqnarray}\text{E}\left[\frac{I(A = a)}{f[A|L]}Y^a\right] & = & \text{E}\left\{\text{E}\left[\frac{I(A = a)}{f[A|L]}Y^a \middle| L\right]\right\}\\ & = & \text{E}\left\{\text{E}\left[\frac{I(A = a)}{f[A|L]} \middle| L\right]\text{E}[Y^a | L]\right\}\ \ (\text{by conditional exchangeability}) \\ & = & \text{E}\{\text{E}[Y^a| L ]\}\ \ \left(\because \text{E}\left[\frac{I(A = a)}{f[a\ L ]}| \middle| L\right] = 1\right)\\ & = & \text{E}[Y^a]\end{eqnarray}$$処理が連続的であるとき(これは条件付き無作為化実験ではありえないデザイン選択であるが)、\(\text{E\[I(A = a)Y/f(A|L)])]はもはや\(\displaystyle \sum_{l}{\text{E}[Y|A = a, L = l]\text{Pr}[L = l]}\)と等しくないので、交換可能性のもとでも\(E[Y^a]\)に偏りがある。これを見るには、\(f(a | l)\)を(ルベーグ測度に関して)\(A\)を与えられた\(L = l\)の条件付き密度(のバージョン)とすると、\(\text{E}[[I (A = a)/f(a|l) | L = l] \)が\(1\)ではなく\(0\)に等しくなることを計算できる。一方、\(f(a | l)\)を\(\text{pr}(A = a, L = l)\)とすると、分母\(f(a | L = l)\)は確率\(1\)の集合上ではゼロなので、正値性は失敗する。セクション12.4では、IP重み付けを連続的な処理に対応させるためにどのように一般化できるかを議論する。テクニカルポイント3.1では、離散的な\(A\)の場合でも、正値性のない場合には上記の結果は成り立たないことを議論する。
コメント