[What if][Statistics]CI: What If (Chap. 3)

crop chemist holding in hands molecule model statistics
Photo by RF._.studio on Pexels.com

Causal Inference: What if

第3章。

Causal Inference: What If (the book)
Jamie Robins and I have written a book that provides a cohesive presentation of concepts of, and methods for, causal inference. Much of this material is current...

1, 2章はこちら。

Causal Inference: What if
CI: What If (Chap. 2)

Part I Causal inference without models

Chapter 3 OBSERVATIONAL STUDIES

「自分が空を見上げることで、他の歩行者も空を見上げるようになるのだろうか?」という因果関係の問題をもう一度考えてみよう。前章と同様に無作為化実験を検討した結果、あなたは何度も空を見上げるのは時間がかかりすぎるし、首の骨にとっても不健康だという結論に達した。そこで、あなたは次のような研究を行うことにした。近くの歩行者で、隅に立って上を向いていない人を見つける。次に、2番目の歩行者を見つけ、その歩行者も顔を上げずに1番目の歩行者に向かって歩く。次の10秒間、彼らの行動を観察し、記録する。このプロセスを数千回繰り返す。1人目の歩行者が顔を上げた後に2人目の歩行者が顔を上げた割合を比較し、1人目の歩行者が顔を上げる前に2人目の歩行者が顔を上げた割合と比較することができる。このように調査者が観察し、関連するデータを記録する科学的研究を観察研究と呼ぶ。

もしあなたが上記のような観察研究を行ったとすると、2人の歩行者がともに上を向くのは、最初の歩行者が上を向くことでもう一方の歩行者が上を向くようになったからではなく、2人とも上空で雷鳴が聞こえたり、雨粒が落ち始めたりしたからであり、したがってあなたの研究結果は、一方の歩行者が上を向くことでもう一方の歩行者が上を向くようになったかどうかについては結論が出ない、と批判することができる。このような批判はランダム化実験には当てはまらず、ランダム化実験が因果推論の理論の中心である理由の一つである。しかし実際には、因果効果の推定におけるランダム化実験の重要性はより限定的である。多くの科学的研究は実験ではない。人間の知識の多くは観察研究から得られている。進化論、地殻プレート、地球温暖化、天体物理学を考えてみよう。熱いコーヒーが火傷を引き起こす可能性があることを、人類がどのようにして知ったかを考えてみよう。この章では、観察研究が有効な因果推論を導くいくつかの条件について検討する。

3.1 Identifiability conditions

理想的なランダム化実験は、平均的因果効果を同定し定量化するために用いることができる。もし移植を受けた人が移植を受けなかったとしたら、実際に心臓移植を受けなかった人と同じ死亡リスクになると予想される。その結果、ランダム化実験から得られた関連リスク比\(0.7\)は、因果リスク比と等しくなると予想される。

一方、観察研究は説得力に欠けるかもしれない(例として、本章の序章を参照)。観察研究に因果関係の解釈を付与することに躊躇する主な理由は、無作為化治療割り付けがないことである。一例として、心臓移植と死亡率に関する観察研究を考えてみよう。もし、移植を受けた人が移植を受けなかったとすれば、実際に心臓移植を受けなかった人よりも死亡リスクが高くなると予想される。その結果、この研究から得られた\(1.1\)の関連リスク比は、死亡率に対する移植の真の有益な効果(関連リスク比を1未満に押し下げる)と、移植を受けた人の死亡リスクがより高い(関連リスク比を1以上に押し上げる)との間の妥協点となる。観察研究における治療と転帰の関連を説明する最善の方法は、必ずしも治療が転帰に及ぼす因果的効果ではない。

無作為化実験が因果推論に本質的な利点があることを認識しながらも、時には因果関係を問うために観察研究に行き詰まることもある。ではどうすればよいのだろうか?測定された共変量(\(L\))を条件として治療が無作為に割り当てられたかのようにデータを分析する。観察データからの因果推論は、観察研究を条件付き無作為化実験とみなすことができるという希望を中心に展開される。非公式には、観察研究は、以下の条件が成立する場合、条件付き無作為化実験として概念化できる。
1. 比較の対象となる治療の値は、明確に定義された介入に対応し、その介入はデータ中の治療のバージョンに対応する。
2. 研究者によって決定されたわけではないが、あらゆる値の治療を受ける条件付き確率は、測定された共変量\(L\)にのみ依存する
3. Lの条件付きですべての値の治療を受ける確率は、ゼロより大きい、すなわち正である。

本章では、これら3つの条件を観察研究の文脈で説明する。条件1は第1章で一貫性、条件2は前章で交換性、条件3はテクニカルポイント2.3で正値性と呼んだ。

このような条件はしばしば勇ましいものであり、観察研究からの因果推論が疑いの目で見られるのはそのためであることがわかるだろう。しかし、観察研究と条件付き無作為化実験のアナロジーがたまたま正しければ、観察研究から因果効果を同定するために、前章で説明した方法-IP重み付けや標準化-を使うことができる。したがって、これらの条件を識別能力条件または仮定と呼ぶ。例えば、前章では条件付き無作為化実験から得られた表2.2のデータを用いて因果リスク比を1と計算した。もし同じデータが表3.1のように観察研究から得られたもので、上記の3つの識別可能性条件が真であれば、因果リスク比も1に等しく計算されるであろう。

\(L\)\(A\)\(Y\)
Rheia000
Kronos001
Demeter000
Hades000
Hestia010
Poseidon010
Hera010
Zeus011
Artemis101
Apollo101
Leto100
Ares111
Athena111
Hephaestus111
Aphrodite111
Cyclope111
Persephone111
Hermes110
Hebe110
Dionysus110
Table 3.1

重要なのは、理想的なランダム化実験では、デザインによって識別可能性の条件が成立することである。つまり、条件付き無作為化実験では、表3.1のデータだけで因果リスク比1を計算することができる。対照的に、観察研究から因果関係のあるリスク比を同定するためには、識別可能性の条件が成立していると仮定する必要があるが、もちろんそれは真実ではないかもしれない。観察データからの因果推論には2つの要素が必要である。それは、データと識別可能性の条件である。識別可能性のより正確な定義については、Fine Point 3.1を参照のこと。

識別可能性の条件のいずれかが成立しない場合、観察研究と条件付き無作為化実験のアナロジーは破綻する。このような状況では、観測データから因果推論を行うには、別のアプローチも考えられる。これらのアプローチの1つは、操作変数と呼ばれる治療の予測変数が、測定された共変量に条件付きでランダムに割り当てられたかのように振る舞うことを期待するものである。操作変数法については第16章で述べる。

Fine Point 3. 1 「因果関係の識別可能性」
これらの仮定が、観測されたデータの分布が効果尺度の1つの値に適合することを意味する場合、平均的な因果効果は、特定の仮定セットの下で(ノンパラメトリックに)識別可能であると言う。逆に、観測されたデータの分布が効果尺度のいくつかの値に適合する場合、平均的な因果効果は仮定の下で識別不可能であると言う。例えば、表3.1の研究が、治療を受ける確率がLの値に依存する(したがって、条件付き交換可能性\(Y^{a}\mathop{\perp\!\!\!\!\perp} A|L\)がデザインによって成立する)条件付き無作為化実験から生まれたとすれば、因果効果は識別可能であることを前章で示した。この場合、それ以上の仮定は必要なく、因果リスク比率は1に等しくなる。しかし、表3.1のデータが観察研究から得られたものであれば、条件付交換可能性\(Y^{a} \mathop{\perp\!\!\!\!\perp} A|L\)を仮定してデータを補足した場合にのみ、因果リスク比は1に等しくなる。観察研究において因果効果を同定するためには、データの外部にある仮定、すなわち識別仮定が必要である。実際、識別仮定でデータを補足しないことにすれば、
・L以外の危険因子が被治療者に多い場合、表3.1のデータは1より低い因果リスク比と一致する。
・L以外の危険因子が未治療者に多い場合、表3.1のデータは1以上の因果関係リスク比と一致する。
・Lを除くすべての危険因子が治療群と未治療群の間に等しく分布している場合、あるいは等価的に、\(Y^a \mathop{\perp\!\!\!\!\perp} A|L\)の場合、因果リスク比が1に等しいことと矛盾しない。
本章では、平均的因果効果のノンパラメトリック同定に関する3つの識別可能条件について説明する。第16章では、平均的因果効果のノンパラメトリック同定に十分な代替識別可能条件について述べる。

驚くことではないが、条件付き無作為化実験とのアナロジーに基づく観察法は、このアナロジーがしばしば妥当である分野(例えば疫学)では伝統的に優遇されてきたのに対し、測定された共変量があるため、観察研究を条件付き無作為化実験として概念化できないことが多い分野(例えば経済学)では、操作変数法が伝統的に優遇されてきた。第16章までは、条件付き無作為化実験をエミュレートする観察研究の能力に依存する因果推論アプローチに焦点を当てる。ここで、3つの識別可能性条件をそれぞれ詳しく説明する。

3.2 Exchangeability

交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A\)については、すでに多くのことを述べた。マージナルに(つまり無条件に)無作為化された実験では、被治療者と無治療者は交換可能である。なぜなら、被治療者は無治療のままであれば、無治療者と同じ平均結果を経験したであろうし、その逆もまたしかりであるからである。これは無作為化によって、治療群と非治療群の間で結果の独立予測因子が等しく分布することが保証されるからである。

例えば、表3.1に要約された研究を考えてみよう。前章で、この研究では交換可能性は明らかに成り立たないと述べた。というのも、ベースライン時、治療群69%対未治療群43%が重篤な状態\(L=1\)だったからである。独立した結果予測因子の分布におけるこのような不均衡は、わずかに無作為化された実験では起こらないことが予想される(実際には、このような不均衡は偶然に起こるかもしれないが、われわれの研究は偶然の発見を防ぐのに十分な規模であるという幻想のもとで作業を続けよう)。

一方、治療を受ける確率が\(L\)に依存する条件付きランダム化実験では、治療者と未治療者の間で独立した結果予測因子\(L\)の分布が不均衡になることがデザイン上予想される。 \(L = 1\)(臨界条件)の部分集合では、治療を受けた者は治療を受けなかったままであれば、未治療の者と同じ平均転帰を経験したであろうから、治療を受けた者と未治療の者は交換可能である。\(L\)の水準内では,結果の他のすべての予測変数が,処置群と未処置群の間で等しく分布しているので,条件付き交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A|L\)が、条件付き無作為化実験で成立する。

観察研究に戻る。治療が研究者によって無作為に割り当てられていない場合、治療を受けた理由はいくつかの結果予測因子と関連する可能性が高い。つまり、条件付き無作為化実験と同様に、観察研究では一般的に治療群と非治療群で結果予測因子の分布が異なる。例えば、表3.1のデータは、医師が乏しい心臓移植を最も必要とする人、すなわち重篤な状態\(L = 1\)の人に向ける傾向がある観察研究から生まれた可能性がある。実際、治療を受けている人と治療を受けていない人の間に不均等に分布している唯一の結果予測変数が\(L\)である場合、表3.1の研究は、(i) \(L = 1\)の人の中で治療\(A = 1\)の確率が0.75であり、\(L = 0\)の人の中では0. 50である観察研究、または(ii)研究者が治療\(A = 1\)を\(L = 1\)の人には0.75の確率で、\(L = 0\)の人には0.50の確率でランダムに割り当てる(盲検化されていない)条件付き無作為化実験である。どちらの特徴づけの下でも、条件付き交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A|L\)が成り立つ。

もちろん、観察研究にとって重要な疑問は、治療群と非治療群の間に不均等に分布する転帰予測因子が\(L\)だけなのかどうかということである。悲しいことに、この疑問は未解決のままでなければならない。例えば、我々の観察研究の研究者が、治療者と未治療者は\(L\)のレベル内で交換可能であると強く信じているとしよう。 「心臓移植は、移植を拒絶する確率の低い人に割り当てられる。つまり、特定のヒト白血球抗原(HLA)遺伝子を持つ心臓は、たまたま適合する遺伝子を持つ人に割り当てられる。HLA遺伝子は死亡率の予測因子ではないので、治療割り当ては\(L\)レベルの中では基本的にランダムであることが判明した。したがって、われわれの研究者たちは、条件付き交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A|L\)が成り立つという仮定のもとで働くことをいとわない。

キーワードは 「仮定」である。治験責任医師がどんなに説得力のある話をしても、無作為化がない以上、条件付交換可能性が成り立つ保証はない。例えば、研究者が知らない間に、医師が非喫煙者に心臓を移植することを好むようになったとする。\(L = 1\)の2人のHLA遺伝子が似ているが、一方が喫煙者(\(U = 1\))、もう一方が非喫煙者(\(U = 0\))である場合、\(U = 1\)の方が治療\(A = 1\)を受ける確率が低い。重要な結果予測因子である喫煙の分布が、層\(L = 1\)において、治療された者(喫煙者の割合が低い\(U = 1\))と治療されなかった者(喫煙者の割合が高い)で異なる場合、\(L\)が与えられた条件付き交換可能性は成立しない。重要なことは、喫煙に関するデータを収集しても、調査者が知らない他の不均衡な結果予測因子が未測定のままである可能性を防ぐことはできないということである。

Fine Point 3. 2 「クロスオーバー無作為化実験」
Fine point 2.1では、個人が2回以上の期間(\(t = 0\)あるいは\(t = 1\))にわたり観察され、それぞれの期間で異なる治療を受けるクロスオーバー実験について述べた。以下の3つの条件が満たされるときに、個人の因果効果を同定できることを示した。すなわち、i) 持ち越し効果がないこと。\(Y^{a_0, a_1}_{it = 1} = Y^{a_1}_{it = 1}\)、ii) 個人の因果効果が時間に依存しないこと。\(Y^{a_t = 1}_{it} – Y^{a_t = 0}_{it} = \alpha_{i}\ \ \ for\ \ \ t = 0, 1\)、およびiii) 無治療下の反事実アウトカムが時間に依存しないこと。\(Y^{a_t = 0}_{it} = \beta_i\ \ \ for\ \ \ t = 0, 1\)。無作為化は必要なかった。次に、個体が受ける治療値の順序が無作為に割り当てられるクロスオーバー無作為化実験に注目する。
ランダム化された治療割り当ては、時間的効果の可能性があるため、(iii)を仮定しない場合に重要になる。簡単のため、すべての個人が0.5の確率で\(A_{i1} = 1, A_{i0} = 0\)か\(A_{i1} =0, A_{i0} = 1\)に無作為に割り付けられるものと仮定する。\(Y^{a1=0}_{i1}-Y^{a0 = 0}_{i0} = r_{i}\)とする。すると、i), ii)および一貫性の仮定のもとで、\(A_{i0} = 0\)かつ\(A_{i1} = 1\)ならば、\(Y_{i1} -Y_{i0} = \alpha_i + r_i\)となり、もし\(A_{i1} = 0\)かつ\(A_{i0} = 1\)ならば\(Y_{i0}-Y_{i1} = \alpha_i – r_i\)となる。\(r_i\)は未知なので、もはや個々の因果関係を特定することはできないが、\(A_{i1}\)と\(A_{i0}\)は無作為化されており、それ故\(r_i\)に依存せず、\((Y_{i1}-Y_{i0})A_{i1} + (Y_{i0}-Y_{i1})A_{i0}\)の平均は、例えば\(E[{\alpha}_{i}]\)のような平均因果効果を推定する。もしi)だけを仮定するならば、この平均は時間0と1の平均治療効果の平均、すなわち\((E[\alpha_{i1}] + E[\alpha_{i0}])/2\)を推定し、ここで\(\alpha_{it} = Y^{\alpha_t = 1}_{it} – Y^{\alpha_t = 0}_{it}\)となる。結論として、キャリーオーバー効果がないという仮定i)が成り立つのであれば、クロスオーバー実験を使って平均的な因果効果を推定することができる。しかし、我々が本書で研究しているタイプの治療と結果では、キャリーオーバー効果がないという仮定はありえない。

したがって、観察研究では交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A|L\)は成立しないかもしれない。具体的には、治療\(A\)を受ける確率が\(L\)の層内で\(U\)に依存するような結果に対しての測定不能な独立予測変数\(U\)が存在する場合、条件付き交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A|L\)は成立しない。さらに悪いことに、仮に条件付き交換可能性\(Y^a \mathop{\perp\!\!\!\!\perp} A|L\)が成立したとしても、研究者は実際にそうであることを実証的に検証することはできない。喫煙に関するデータを収集していないのに、喫煙の分布が治療群と非治療群で同じであることをどうやって確認できるのだろうか?治療群と非治療群との間に異なる分布があるかもしれない、他のすべての測定されていない結果予測因子\(U\)についてはどうだろうか?条件付き交換可能性のもとで観察研究を分析する場合、我々は専門的知識が正しく我々を導き、仮定が少なくとも近似的に真となるように十分なデータを収集することを望まなければならない。研究者は、条件付交換可能性の仮定の妥当性を高めるために、専門家の知識を利用することができる。彼らは、表3.1のような1つの変数だけでなく、多くの重要な変数\(L\)(例えば、独立した結果予測因子でもある治療の決定因子)を測定し、それらの変数\(L\)のすべての組み合わせによって定義される層内で、条件付交換性がほぼ真であると仮定することができる。残念ながら、どんなに多くの変数が\(L\)に含まれていても、仮定が正しいことを検証する方法はなく、観察データからの因果推論は危険な作業となる。因果推論の妥当性は、研究者の専門的知識が正しいことを必要とする。この知識は、測定された共変量を条件とする交換可能性の仮定として符号化され、関心のある因果効果を同定する試みにおいてデータを補足する。

3.3 Positivity

ある研究者が、心臓移植\(A\)が5年死亡率\(Y\)に及ぼす平均効果を計算する実験を計画している。研究者が、ある個人を治療レベル\(A = 1\)に、他の個人を治療レベル\(A = 0\)に割り当てることは言うまでもない。すべての人が同じ治療レベルを受けるので、平均因果効果を計算することは不可能である。その代わりに、ほぼ確実に、何人かの個人が各治療群に割り当てられるように、治療を割り当てなければならない。言い換えると、各治療水準に割り当てられる確率が0より大きい、つまり正の確率であることを保証しなければならない。これが正値性である。実験について説明するときに正を強調しなかったのは、それらの研究では正が当然とされているからである。マージナルランダム化実験では、確率\(\text{Pr} [A = 1]\)と\(\text{Pr} [A = 0]\)は、デザインによって両方とも正である。条件付き無作為化実験では、条件付き確率\(\text{Pr}[A = 1|L = l]\)と\(\text{Pr}[A = 0|L = l]\)も、研究の対象となる変数\(L\)のすべての水準について、デザインによって正である。例えば、表3.1のデータが条件付き無作為化実験から得られたものであれば、心臓移植への割当ての条件付き確率は、危篤状態の人々には\(\text{Pr}[A = 1|L = 1] = 0.75\)、その他の人々には\(\text{Pr}[A = 1|L = 0] = 0.50\)であったであろう。これらの確率はどちらも\(0\)ではない(\(1\)でもない、つまり心臓移植が行われない確率\(A = 0\)は\(0\)になる)ので、\(L\)を条件として正値性が成り立つ。したがって、因果対比に関係するすべての\(a\)について、\(\text{Pr} [A = a|L = l] > 0\)であれば、正値であると言う。実は、この正値性の定義は不完全である。というのも、もし我々の研究集団が\(L = 1\)のグループに再制限されていれば、\(L = 0\)のグループには正値性を要求する必要がないからである。さらに、交換可能性に必要な変数\(L\)にのみ正値性が求められる。たとえば、表3.1の条件付き無作為化実験では、「青い目を持つ」という変数が、治療される者と治療されない者との間の交換可能性を達成するのに必要ではないので、青い目を持つ個体で治療を受ける確率が0より大きいかどうかは問わない。(変数 「青い目であること」は、\(L\)と\(A\)を条件とする結果\(Y\)の独立した予測因子ではなく、治療を割り当てるために使われたわけでもない)。つまり、標準化リスクとIP加重リスクは、\(L\)のみで調整した後の反事実リスクと等しく、「青い目であること」のように調整する必要のない変数には正値性は適用されない。

観察研究では、正値性も交換性も保証されない。例えば、図3.1に示すように、医師が常に危篤状態\(L=1\)の人に心臓を移植する場合、すなわち\(\Pr [A = 0|L = 1] = 0\)の場合、正値性は成立しない。交換可能性と正値性の違いは、正の条件が経験的に検証できる場合があることである(第12章参照)。例えば、表3.1が観察研究のデータに対応するものであれば、\(L\)のすべてのレベル(すなわち、\(L=0\)と\(L=1\))にすべてのレベルの治療(すなわち、\(A=0\)と\(A=1\))の人々が存在するため、\(L\)について正値性が成り立つと結論づけられるだろう。前章での標準化とIP重み付けの議論は、交換可能性条件については明示的であったが、正値性については暗黙的にしか想定していなかった(Technical Point 2.3で明示)。これまでの標準化リスクとIP加重リスクの定義は、実際には正値性が成り立つ場合にのみ意味を持つ。正値性が成立しない場合に標準化リスクとIP加重リスクがうまく定義できない理由を直感的に理解するために、図3.1を考えてみよう。もし\(L = 1\)の未治療の個体(\(A = 0\))が存在しなければ、\(L = 1\)の治療個体と交換可能であると考えられる\(L = 1\)の未治療個体が存在しないため、データにはすべての治療済みの個体が未治療であった場合に何が起こったかをシミュレートするための情報が含まれていないことになる。詳細はテクニカルポイント3.1を参照のこと。

Figure 3.1

Technical Point 3.1 「標準化とIPウェイト付けに前向き」
治療水準\(a\)に関する標準化平均を\(\sum_{l =}{\text{E} [Y |A = a, L = l] Pr [L = l]}\)と定義した。しかしながらこの式は、条件付き量\(\text{E}[Y |A = a, L = l]\)がよく定義されている場合にのみ計算できる。これは、条件付き確率\(Pr [A = a|L = l]\)が、母集団に出現するすべての値\(l\)についてゼロより大きい場合である。つまり、正値性が成り立つときである。\((Pr [A = a|L = l] > 0\) という文は、すべての\(l\)に対して \(Pr [L = l] \ne 0\)であり、実質的に\(f [a|L] > 0\) と確率\(1\)で等価であることに注意)。したがって、標準化平均は次式で定義される。$$\sum_{l}{\text{E}[Y | A = a, L = l]\text{Pr[L = l]}}\ \ if \ \ \ \text{Pr}[A = a | L = l] > 0\ \ \forall \ \ l \ \ \ with \ \ \ \text{Pr}[L = l]\ne 0$$これを定義しているが、それ以外は未定義である。標準化平均は、母集団中の共変量\(L\)の各値について、治療水準\(a\)を受けた個体が存在する場合にのみ計算できる。
正値性が成り立たないとき、IP重み付け平均\(\displaystyle \text{E}\left[\frac{I(A = a)Y}{f[A|L]}\right]\)はもはや\(\displaystyle \text{E}\left[\frac{I(A = a)Y}{f[a|L]}\right]\)と等しくない。特に、期待値を計算する際に未定義の比率0が発生するため、\(\displaystyle \text{E}\left[\frac{I(A = a)Y}{f[a|L]}\right]\)は未定義になる。反対に、IP重み付け平均\(\displaystyle \text{E}\left[\frac{I(A = a)Y}{f[A|L]}\right]\)は分母の\(f(A| L)\)がゼロにはならないため、常に定義できる。しかし、交換可能性の下でも、これは反事実平均の偏った推定値となっている。特に、正値性が成り立たないとき、\(\displaystyle \text{E}\left[\frac{I(A = a)Y}{f[A|L]}\right]\)は$$\text{Pr}[L \in Q(a)]\sum_{l}{\text{E}[Y|A = a, L = l, L \in Q(a)]\text{Pr}[L = l| L \in Q(a)]}$$と等しくなる。ここで、\(Q(a) = {l; \text{Pr}(A = a| L= l) > 0}\)は、\(A = a\) が正の確率で観測される可能性のある値 \(l\)の集合である。それ故、交換可能性の仮定のもとで、\(\displaystyle \text{E}\left[\frac{I(A = A)Y}{f[A|L]}\right]\)は\(\text{E}[Y^a | L \in Q(a)| \text{Pr}| L \in Q(a)]\)と等しくなる。\(Q(a)\)の定義から、\(A\)が二値であり生値性が成り立たないとき、\(Q(0) \ne Q(1)\)となる。この場合、交換可能性の仮定のもとでも、比較\(\displaystyle \text{E}\left[\frac{I(A = 1)Y}{f[A|L]}\right] -\text{E}\left[\frac{I(A = 0)Y}{f[A|L]}\right]\)は因果的な解釈を持たない。なぜならばこれは二つの異なるグループの比較になっているからである。生値性が成り立つとき、\(Q(0) = Q(1)\)であり、上記の式は交換可能性が成り立つならば、平均因果効果となっている。

3.4 Consistency: First, define the counterfactual outcome

一貫性とは、治療を受けた個体の観察結果と、治療を受けた場合の結果が等しく、治療を受けなかった個体の観察結果と、治療を受けなかった場合の結果が等しいことを意味す る。結局のところ、もし私がアスピリン\(A = 1\)を飲んで死んだら(\(Y = 1\))、アスピリン投与下での私の結果\(Y^{a = 1} \)も\(1\)に等しいということにならないだろうか?一見単純に見える一貫性の条件は欺瞞に満ちている。その2つの主要な構成要素を明示的に説明することで、一貫性を解き明かしてみよう: (1)上付き添字\(a\)の詳細な指定による反実仮想結果\(Y^a\)の正確な定義、(2)反実仮想結果と観察結果の連結。本節では、第一の構成要素である一貫性を扱う。

心臓移植\(A\)が5年死亡率Yに及ぼす因果効果を計算するための無作為実験をもう一度考えてみよう。この研究に患者を登録する前に、研究者はプロトコールを書き、その中で関心のある2つの介入-心臓移植\(A = 1\)と薬物療法\(A = 0\)-を詳細に記述した。例えば、心臓移植\(A=1\)に割り付けられた患者は、特定の術前処置、麻酔、手術手技、術後ケア、免疫抑制療法を受けることが明記された。もしプロトコールにこのような詳細が明記されていなければ、各医師が自分の好みの手術手技や免疫抑制療法を用いて、異なるバージョンの「心臓移植」治療を行っていた可能性がある。

異なるバージョンの治療が異なる因果効果を持つ場合、問題が生じる。例えば、ほとんどの医師が伝統的な手術手技を用いた研究における「心臓移植」の平均的な因果効果は、ほとんどの医師が新しい手術手技を用いた研究におけるそれとは異なる可能性がある。したがって、「心臓移植\(A\)の死亡率に対する因果効果」という場合には、注目する治療法\(A\)のバージョン\(a\)を特定する必要がある。もし治療値\(a\)がよく定義されていなければ、反事実結果\(Y^a\)もよく定義されておらず、それは因果効果\(\text{Pr}[Y^{a=1} = 1] – \text{Pr}[Y^{a = 0} =1]\)がよく定義されていないことを意味する。理想的には、無作為化実験のプロトコールは、各個人に割り当てられた治療値\(a\)を正確に指定し、反事実結果\(Y^a\)が明確に定義されるようにする。観察研究では、研究者は研究中の値\(a\)をできるだけ明確に特定する必要がある。この作業は、心臓移植のような医療介入では比較的簡単であるが、現実世界での実際の介入に対応しない治療でははるかに難しい。

我々の同僚が、ある集団において40歳時の肥満\(A\)が50歳時の死亡リスク\(Y\)に及ぼす因果効果を定量化したいと考えたとする。形式的には、この因果効果は、40歳の時点ですべての人が肥満であった場合のリスク\(Pr[Y^{a = 1} = 1]\)と、すべての人が肥満でなかった場合のリスク\(Pr[Y^{a = 0} = 1]\)の対比によって定義される。しかし、「すべての人が肥満であった場合のリスク」とは一体何を意味するのだろうか?なぜなら、ある個人が40歳の時点で肥満になっていた可能性には様々なものがあるからである。例えば、20年間肥満であった人が40歳で肥満になるかもしれないし、2年間だけ肥満であった人が40歳で肥満になるかもしれない。つまり、肥満の期間、再発性、強度によって定義される治療\(A=1\)には、複数のバージョンが存在する。これらのバージョンはそれぞれ死亡率に異なる影響を及ぼす可能性があるため、同僚は40歳時点での肥満のバージョンについて詳細な定義を示す必要がある。そうでなければ、「40歳時の肥満Aが50歳時の死亡率に及ぼす因果効果」の定義が不明確になってしまう。

しかし、仮に同僚が肥満\(A = 1\)の期間、反復性、強度を定義できたとしても、介入の他の側面も指定する必要がある。特に、同僚は、各個人が治療値\(A=1\)を経験するように体重に介入する方法を特定する必要がある。例えば、ウエストと冠動脈の脂肪組織を増加させる遺伝子組換え、高カロリー摂取を伴う極端な運動不足の体制、腸内細菌叢の置換、手術、これらと他の介入の組み合わせなどが考えられる。問題なのは、これらの選択肢のどれもが、何らかの方法で脂肪率を同じレベルに設定できたとしても、死亡率に及ぼす影響がそれぞれ異なる可能性があるということである。

40歳で肥満(\(A=1\))、49歳で致命的な心筋梗塞(\(Y=1\))を発症したゼウスを例にとってみよう。ゼウスは、腰と冠動脈の両方に大量の脂肪組織がつきやすい遺伝子を持っていたため、適度に運動し、健康的な食生活を続け、腸内細菌叢も良好であったにもかかわらず死亡した。事実に反して、もし彼の遺伝子が中立であったとしても、生涯の運動不足、食事のカロリー過多、好ましくない腸内細菌叢の結果、肥満(\(A=1\))になったのであれば、彼は50歳までに死ぬことはなかったであろう(\(Y=0\))。したがって、「肥満」\(a = 1\)の場合のゼウスの反事実的結果\(Y^{a = 1}\)は何であろうか?私たちは、肥満\(a = 1\)になるような状況下で彼は死んだが、肥満\(A = 1\)になるような別の状況下では死ななかっただろうと述べただけである。\(a = 1\)の下での反実仮想結果\(Y^{a = 1}\)は定義が不明確である。

ゼウスが非肥満であった場合の反実仮想結果\(Y^{a = 0}\)も定義が不十分である。もしゼウスが肥満でなかったら、どのように非肥満でいられたかによって、50歳までに死んだか死ななかったかのどちらかになったかもしれない。たとえば、生涯運動(死因:自転車事故)、喫煙(死因:肺がん)、肥満手術(死因:麻酔の副作用)の後、非肥満であったゼウスが50歳までに死亡したとしよう。 健康的な食生活(子供を食い散らかすことによるカロリーの減少)、より好ましい遺伝子(内臓脂肪組織の減少)、または異なる微生物叢(脂肪吸収の減少)の生涯を送った後に非肥満であったなら生存していたであろう。 どのバージョンの「肥満なし」\(A = 0\)を考えているのか不明確なので、\(a = 0\)の下での反実仮想結果\(Y^{a =0}\)は定義が不明確である。

反実仮想結果の定義が曖昧だと、因果関係の質問も曖昧になる。もし我々の同僚が肥満\(A=1\)が死亡率に及ぼす影響に興味があるのであれば、彼は反実仮想結果\(Y^{a = 0}\)と\(Y^{a = 1}\)を定義するために努力しなければならないだろう。他の例:運動の因果効果に関心がある場合、運動の時間、頻度、強度、種類(水泳、ランニング、バスケットボールをする…)、運動に充てた時間を他の時間にどのように使うか(子供と遊ぶ、バンドのリハーサル、テレビを見る…)などを定義する必要があるかもしれない。 テレビを見る…)など。

治療法の定義に絶対的な正確さは必要ないことに注意。有用な因果推論には必要ない。例えば、運動の因果効果については、近所の公園を時計回りに走った場合と、反時計回りに走った場合とで、科学者の意見は同じである。したがって、「生涯運動」という治療法を説明する場合、走る方向を特定する必要はない。このような、治療の他の側面は、変化させても反事実の結果が異なることにはならないので、関係ないと考えられる。つまり、意味のある曖昧さが残らないような、十分に明確に定義された介入\(a\)のみが必要なのである。

このことは、「ある治療法が十分に明確に定義されていること」、つまり、「意味のある曖昧さが残っていないこと」をどうやって知ることができるのか、という問いを投げかけることになる。答えは 「わからない」である。治療法が十分に定義されていると宣言することは、利用可能な実質的知識に基づく専門家同士の合意の問題である。今日私たちは、走る方向は関係ないということに同意しているが、将来の研究で、例えば走っているときに体を右に傾けることは有害だが、左に傾けることは有害ではないということが証明されれば、私たちが間違っていることが証明されるかもしれない。いつの時代でも、無作為化実験のプロトコルを書く専門家は、自分の裁量で主題に関する知識を用いることによって、可能な限り曖昧さを排除しようとする。しかし、すべての因果関係の質問には、ある程度の曖昧さが内在している。因果関係のある質問のあいまいさは、より詳細な治療法の指定によって減らすことはできるが、完全になくすことはできない。しかし、生物学的(例:体重、LDL-コレステロール)または社会的(例:社会経済的地位)な 「治療」を含む因果関係のある質問を伴う観察研究では、曖昧さの程度が特に高い。

上記の議論は、因果推論の本質的な特徴を示している。つまり、因果関係の問いの明確化は、その分野の専門知識と非公式な判断に左右されるということである。現在、私たちが科学的に意味のある因果関係の質問とみなしているものが、将来、治療のより細かい構成要素が結果に影響し、したがって因果効果の大きさに影響することを知った後では、漠然としすぎているとみなされるかもしれない。数年後、科学者たちはおそらく、現時点ではほとんどわかっていない細胞の変化という観点から、私たちの肥満に関する疑問を洗練させていくだろう。繰り返しになるが、十分に定義された治療法という言葉は、専門家のコンセンサスに依存しており、それは定義上、時間とともに変化するものである。Fine Point 3.3は、因果関係の質問をより正確にするための、論理的には等価な別の方法について述べている。

この時点で、読者の中には、治療法をより具体化する過程で、当初の疑問が変わってしまう可能性があることを指摘する人も当然いるだろう。我々は、肥満の影響に対する同僚の関心を宣言することから始めたが、運動に関する仮説的介入について議論することで終わった。分析に十分明確に定義された因果解釈を提供することに集中すればするほど、私たちは本来の疑問から遠ざかっていくように思われる。しかし、それは良いことである。意味のある曖昧さが残らないことに合意できるまで、因果関係の問いを精緻化することは、因果推論の基本的な要素である。肥満の影響」に関心があると宣言することは、同僚との議論の出発点に過ぎない。その議論の中で、できればコンセンサスが得られるまで、治療法の特定を洗練させることによって、因果関係の問題をより鮮明にしていきたい。治療法をより正確に定義すればするほど、科学者間で誤解が生じる機会は少なくなる。

これまでのところ、一貫性の第一の要素である、十分に明確に定義された治療法の特定についてのみ検討してきた。しかし、数値的な推定値を比較的明確に解釈するには、整合性の2番目の要素も必要である。

Fine Point 3.2 「可能世界」
科学哲学者の中には、因果関係の対比を「可能世界」という概念で定義する人もいる。現実世界とは、物事が実際に存在する姿である。可能世界とは、あるべき姿のことである。誰もが治療値\(a\)を受ける可能世界\(a\)と、誰もが治療値\(a^{\prime}\)を受ける可能世界\(a^{\prime}\)を想像してみよう。結果の平均は、第一の可能世界では\(\text{E}[Y^a]\)であり、第二の可能世界では\(\text{E}[Y^{a^{\prime}} ]\)である。これらの哲学者は、\(\text{E}[Y^a] \ne \text{E}[Y^{a^{\prime}} ]\)であり、世界\(a\)と\(a^{\prime}\)がそれぞれ、すべての個人が治療値\(a\)と\(a^{\prime}\)を受ける実際の世界に最も近い2つの世界である場合、平均的因果効果があると言う。
ある個人の反事実的結果\(Y^a\)を、治療価値\(a\)を彼女に割り当てる十分によく定義された介入下での彼女の結果と導入した。これらの哲学者は、反事実的結果\(Y^a\)を、我々の世界に最も近く、個人が\(a\)で治療された可能世界における結果と考えることを好む。最も近い可能世界と実際の世界との間の唯一の違いが、関心のある介入が行われたということだけである場合、どちらの定義も等価である。反実仮想の可能世界の定式化は、関心のある介入を特定するという時に困難な問題を、実際の世界と最小限の違いで最も近い可能世界を記述するという同様に困難な問題に置き換えるものである。Stalnaker(1968)とLewis(1973)は、可能世界に基づく反事実理論を提案した。

3.5 Consistency: Second, link counterfactuals to the observed data

前節の議論に触発され、我々の同僚は、肥満が50歳までの死亡率に及ぼす影響に関する漠然とした因果関係の問いを、より正確な因果関係の問いに変えることにした。彼が今興味を持っているのは、次のような介入である(\(a = 1\))。 「18歳から40歳まで、18歳のときの体重を超えないように、すべての人に厳しい強制的なダイエットをさせる。具体的には、18歳の誕生日の前日から毎日体重を測定する。その体重が18歳のときの基準体重を超えるたびに、その人のカロリー源と微量栄養素の組み合わせを変えることなく、基準体重以下になるまで(通常は1~3日以内)カロリー摂取が制限される。したがって、1~2キログラムの誤差を無視しても、40歳まで基準体重を超えることはない。カロリー制限のない期間中の運動や食事に関する指示や制限は一切ない。比較介入(\(a = 0\))は 「介入しない」である。

これらの治療値\(a = 1\)と\(a = 0\)は十分によく定義されており、したがって、反実仮想結果\(Y^{a = 1}\)と\(Y^{a = 0}\)の仕様に意味のある曖昧さは残らないということに専門家が同意したとする。ここで、\(A = a\)の個体に対する整合性条件\(Y^a = Y\)の等号に注意を移すことができる。

アイデアを修正するために、同僚の厳しい介入\(a = 1\)を受けていないにもかかわらず、18歳から40歳までほぼ一定の体重を維持したアレスを考えてみよう。むしろ、アレスが基準体重を維持したのは、(ヘラから受け継いだ)優秀な遺伝子と(頻繁な戦争での戦闘による)活発な身体活動が混在していたからである。したがって、アレスの観察された治療値は\(A = 1\)ではなく、したがって彼の観察された結果\(Y\)は、もし彼が同僚の仮説的介入\(a = 1\)を受けていたら経験したであろう反事実的結果\(Y^{a = 1}\)と必ずしも等しくない。

反実仮想の結果\(Y^{a = 1}\)と観察された結果\(Y\)の間のリンクを維持するために、治療バージョン\(a = 1\)を受けた個体だけが、分析において治療された個体(\(A = 1\))とみなされるようにしなければならない。このことは、観察データを用いて因果効果\(\text{Pr}[Y^{a = 1} = 1] – \text{Pr}[Y^{a = 0} = 1]\)を定量化したい場合、\(a = 1\)と\(a = 0\)に一致する治療値を受けた個体がいるデータが必要であること、つまり(無条件の)正値性が必要であることを意味している。我々の同僚が行ったように、明確に定義された介入\(a\)を記述することができても、介入を観察データとリンクさせることができない場合、つまり、等式\(Y^a = Y\)が少なくとも何人かの個人について成り立つと合理的に仮定できない場合には、役に立たない。

しかし、しばしば起こることだが、データが十分に豊富でない場合、関心のある治療値\(a\)に限定することは不可能である。この問題は、例えば、40歳時点の体重に関するデータは集めても、その人の生涯の体重、運動、食事の履歴に関するデータを集めない「肥満研究」で生じる。

この問題から逃れる1つの方法は、すべての治療バージョンの効果が同一であると仮定することである。場合によっては、これは良い近似であるかもしれない。例えば、脳卒中に対する高血圧と正常血圧の因果効果に関心がある場合、経験的証拠は、異なる薬理学的メカニズムによって血圧を下げると、同様の結果が得られることを示唆している。その場合、潜在的な結果と観察された結果を結びつけるために、治療法である「血圧」の正確な定義は不要であると主張できるかもしれない。しかし、他のケースでは、この仮定が妥当かどうかはもっと疑わしい。例えば、体重維持が死亡に及ぼす平均年齢の因果効果に関心がある場合、経験的証拠は、ある介入はリスクを増加させ(例えば、喫煙の継続)、他の介入はリスクを減少させる(例えば、適度な運動)ことを示唆している。実際には、多くの観察分析では、複数のバージョンを持つ治療について因果推論を行う場合、治療-変動の無関連性を暗黙のうちに仮定している。

要約すると、「肥満」のような定義が不明確な治療は因果効果推定値の解釈を複雑にする(前節)が、データに存在しない十分に定義された治療も同様である(本節)。関心のある治療値と手元のデータとの間のミスマッチを検出するには、集団で作用する治療のバージョンを注意深く特徴付ける必要がある。このような特徴づけは、実験(すなわち、研究者が治療を割り当てるために用いる介入)においては単純であり、観察分析(例えば、医学的治療の効果を研究するもの)においては比較的単純であるが、生物学的および社会的要因の効果を研究する多くの観察分析においては困難か不可能である。

もちろん、もし専門家たちが、すべての治療バージョンに同様の因果関係があると明確に合意しているのであれば、データに存在する治療バージョンの特徴づけは必要ないだろう。しかし、専門家は誤りを犯しやすいので、私たちにできる最善のことは、このような議論と私たちの仮定をできるだけ透明にして、他の人が私たちの議論に直接異議を唱えることができるようにすることである。次のセクションでは、その透明性を実現するための手順を説明する。

3.6 The target trial

本節および本書全体を通じて、因果効果という用語は、異なる処置値の下での平均的な反事実結果の対比を指す。したがって、各因果効果について、それを定量化するための(仮想の)無作為化された実験を想像することができる。その仮想実験をターゲット実験またはターゲットトライアルと呼ぶ。ターゲット・トライアルを実施することが不可能な場合、倫理的な場合、またはタイムリーでない場合、観察データの因果分析に頼る。つまり、観察データからの因果推論は、ターゲットトライアルをエミュレートする試みとみなすことができる。もしエミュレーションが成功すれば、観察結果の推定値と、(もし実施されていれば)対象トライアルが得たであろう数値結果との間に差はない。3.1節で述べたように、観察研究と条件付き無作為化実験のアナロジーがたまたま我々のデータで正しければ、観察研究から因果効果を計算するために、前章で述べた方法-IP重み付けや標準化-を使うことができる。(観察データを用いて治療に起因する症例の割合を計算する方法については、Fine Point 3.4を参照)。

したがって、「どのようなランダム化実験をエミュレートしようとしているのか」は、観察データからの因果推論にとって重要な質問である。観察データを使って推定したいそれぞれの因果効果について、(i)実施したいが実施できない対象試験、(ii)その対象試験をエミュレートするために観察データをどのように使うことができるかを説明することができる。

対象となる試験を記述するには、そのプロトコルの主要な構成要素、すなわち適格基準、介入(または治療戦略)、アウトカム、追跡調査、因果関係の対比、統計解析を特定することで行うことができる。ここでは、治療戦略、または本章の用語では、群間で比較される介入に焦点を当てる。前の2つのセクションで議論したように、研究者はまず関心のある介入を特定し、次にそれを受けた個人をデータで同定する。

40歳時点で肥満で喫煙しない人の死亡率に対する「体重減少」の因果関係を考えてみよう。研究者にとっての最初のステップは、因果関係の質問を曖昧にしないことである。例えば、体重減少の達成方法は問わないという仮定の下で、40歳から、肥満度が25を超える限り、毎年肥満度の5%ずつ体重を減らすことの効果を推定することを目標とする。これで、この治療戦略を目標試験のプロトコールに移すことができる。

標的試験を明示的にエミュレートすることで、研究者は、例えば40歳時点での肥満者と非肥満者の死亡リスクを比較するような単純化しすぎた分析を行うことがなくなる。このような比較は、肥満の人がベースライン時の肥満度25の人に瞬間的に変身する(大規模な脂肪吸引によって?) 現実世界では、そのような瞬時の変化を経験する人は、いたとしてもごくわずかであり、したがって反事実の結果を観察された結果と結びつけることはできないからである。

観察データからの因果推論を、目標とする試行をエミュレートする試みとして概念化することは、普遍的に受け入れられているわけではない。ある著者は、\(A\)と\(Y\)が何であれ(\(A\)が\(Y\)に時間的に先行する限り)、「\(A\)が\(Y\)に及ぼす平均的因果効果」は明確に定義された量であると仮定している。例えば、肥満の影響を考えるとき、彼らは対象となる試行を注意深く特定する必要はないと主張する。数値的な効果推定を解釈するためには対象となる試験を特定することが必要であるという我々の見解とは対照的に、著者らはそのような定量的な解釈の必要性に疑問を呈している。彼らの主張は次のようなものである。

Fine Point 3.4 「帰属率」
我々は、因果リスク比\(\text{Pr}[Y^{a=1} = 1]/ \text{Pr}[Y^{a = 0} = 1]\)や因果リスク差\(\text{Pr}[Y^{a=1} = 1] – \text{Pr}[Y^{a = 0} = 1]\)のような効果測定について説明したが、これは治療\(a = 1\)の下での反事実リスクと治療\(a = 0\)の下での反事実リスクを比較するものである。しかし、観察されたリスクと、治療\(a = 1\)または\(a = 0\)のどちらかの下での反事実的リスクとを比較する尺度にも興味があるかもしれない、 すなわち、治療が行われなければ発生しなかった症例の割合である。例えば、この集団の20人全員が、蜂蜜酒(\(A = 1\))か蜜(\(A = 0\))のどちらかが出された夕食会に出席したとする。翌日、\(A = 1\)を受けた10個体のうち7個体が病気になり、\(A = 0\)を受けた10個体のうち1個体が病気になった。簡単のために、処理された個体と処理されていない個体の交換性を仮定して、因果リスク比は\(0.7/0.1 = 7\)、因果リスク差は0\(.7 – 0.1 = 0.6\)とする。(条件付き無作為化実験では、標準化またはIP重み付けによってこれらの効果測定を計算することになる)。後に、蜂蜜酒がハトの群れによって汚染されていたことが発見され、因果リスク比と因果リスク差の両方で要約されるリスクの増加が説明された。次に、「症例の何割が蜂蜜酒の摂取に起因するのか」という疑問に取り組む。
すなわち、観察されたリスクは\(\text{Pr} [Y = 1] = 8/20 = 0.4\)である。すべての人が\(a = 0\)を受けた場合に観察されたであろうリスクは、\(\text{Pr}[Y^{a = 0} = 1] = 0.1\)である。この2つのリスクの差は\(0.4 – 0.1 = 0.3\)である。すなわち、集団の全員が治療\(A\)ではなく\(a = 0\)を受けていれば発病しなかったが、発病した個体の30%が過剰である。\(0.3/0.4 = 0.75\)なので、症例の75%が治療\(a = 1\)に起因すると言う。観察された8例と比較して、全員が\(a = 0\)を受けていれば2例しか発生しなかった。$$\frac{\text{Pr}[Y = 1]- \text{Pr}[Y^{a = 0} = 1]}{\text{Pr}[Y = 1]}$$十分構成要因の枠組みにおける超過割合の議論については、Fine Point5.4を参照のこと。
過剰症例数は、一般的に、曝露によって機械的に引き起こされた症例の割合として定義される帰属症例数の別バージョンである病因別症例数とは異なる。例えば、未治療者(\(A=0\))が治療を受けた場合、7症例が発生したが、この7症例には実際に発生した未治療の1症例は含まれていなかったとする。また、もし未治療であったなら、治療を受けた症例は1例だけであったが、実際に発生した7例とは異なっていたとしよう。その場合、過剰率は病因率と等しくはならない。ここで、過剰率は病因別割合の下限である。病因分率は過剰症例の概念に依存しないので、ランダム化実験においてのみ計算可能である(Greenland and Robins, 1988)。

観察研究では、どのような因果効果が推定されているのか正確にはわからないかもしれないが、本当に何らかの因果効果が存在するのであれば、それは本当に重要なことなのだろうか?肥満と死亡率の間に強い関連があるということは、死亡率を減少させる体重への何らかの介入が存在することを示唆しているのかもしれない。そのような変化を達成するために必要な介入が不特定であったとしても、もしすべての肥満者が何らかの方法で強制的に標準体重にさせられていれば、多くの死亡を防ぐことができたということを知ることには価値がある。

これは魅力的ではあるが、危険な議論である。というのも、治療の定義が不明確なため、観察研究における交換可能性と正値率の適切な検討ができないからである。

まず交換可能性について話そう。目標とする試験を正しくエミュレートするために、研究者は無作為化そのものをエミュレートする必要がある。これは、治療群と非治療群の交換可能性を達成することに等しく、おそらく共変量\(L\)に条件付きである、 すなわち、治療(肥満)の決定因子であり、結果(死亡率)の危険因子でもある共変量\(L\)を同定し、測定しようとすることはできるのだろうか?不特定の治療バージョンの効果を推定しようとすると、条件付交換可能性に関する通常の不確実性が大きく悪化する。

治療の不特定バージョンを受け入れることも正値性に影響する。食事と運動を含む共変量\(L\)で調整して、死亡率に対する肥満の効果を計算することにしたとしよう。これらの変数の値によっては、肥満でない個体が存在する可能性がある。十分な生物学的知識があれば、母集団に肥満者と非肥満者の両方が含まれる\(L\)の層に限定して分析することにより、正値性を維持することができるが、これらの層はもはや元の母集団を代表していないかもしれない。

正値性の違反は、もう一つの潜在的な問題を指摘する:治療の不特定な検証は、不合理な介入を実施する標的試験に対応するかもしれない。観察研究における肥満者と非肥満者の一見単純な比較は、「集団の全員を即座に非肥満者にする」といった介入の真の複雑さを覆い隠している。もしこのような介入が明示されていれば、研究者たちは、このような劇的な変化は現実の世界では観察される可能性が低く、したがって減量を考えている人には無関係であることに気づいたであろう。上述したように、完全に明確に定義されていないとしても、より合理的な介入は、肥満度を毎年5%減少させることであろう。目標とする試験に因果推論を固定することは、観察分析における因果問題の特定をより明確にするだけでなく、意思決定により適切な推論になる。

不特定多数の治療によって生じる問題は、高度な統計的手法を適用しても対処できない。本書で述べられている観察データからの因果推論のための分析手法はすべて、比較される治療と同じ程度にしか定義されていない効果推定値をもたらす。交換可能性の条件は、他の検証不可能な条件で置き換えることができ(第16章参照)、モデル化によって検証不可能な外挿を行うことを厭わなければ(第14章参照)、正値性は免除することができるが、十分によく定義された治療という要件は非常に基本的なものであり、同時に推定される因果効果を記述する可能性を否定しない限り、免除することはできない。

観察データが興味深いターゲットトライアルをエミュレートするのに使えない場合、すべてが失われるのだろうか?そうではない。観察データは、非因果的予測に焦点を当てることで、ターゲットトライアルの概念が適用されない場合でも、かなり有用である可能性がある。肥満者が非肥満者より死亡リスクが高いということは、肥満が死亡の予測因子であり、死亡と関連しているということである。これは死亡リスクの高い人を特定するための重要な情報である。ただし、肥満が死亡率を予測する-死亡率と関連がある-というだけでは、肥満が死亡率に及ぼす因果効果については不可知論的なままであることに注意されたい。ライターの携帯が肺がんを予測するように、肥満が死亡率を予測するかもしれないのである。このように、肥満と死亡率の関連は、興味深い仮説を生み出す運動であり、さらなる研究の動機付けとなる(そもそもなぜ肥満が死亡率を予測するのだろうか)が、必ずしも全人口を対象とした減量介入を推奨する適切な正当化理由とはならない。観察データからの予測に後退することで、ランダム化実験では論理的に問うことができない、原理的にも問うことができない問題に取り組むことを避けている。一方、因果推論が最終的な目標である場合、予測は満足のいくものではないかもしれない。

Technical Point 3.2 「一貫性をごまかす」
複数の関連する治療バージョンを持つ複合治療\(R\)を考える。興味深いことに、たとえ治療のバージョンがうまく定義されていなくても、私たちは保持が保証される一貫性の条件を明確にすることができる(Hernán and VanderWeele, 2011; VanderWeele and Hernán, 2013)。\(R_i = r\)の個人については、\(A_i(r)\)を個人\(i\)が実際に受けた治療\(R_i = r\)のバージョンとする。\(R_i \ne r\)の個人については、\(A_i(r) = 0\)と定義し、\(A_i(r) \in {0} \cup A(r)\)とする。整合性条件は、すべての\(i\)に対して要求する。$$Y_i = Y_{i}^{r, a(r)}\ \ when\ \ R_i = r \ \ \ and \ \ A_i(r) = a(r)$$つまり、ある特定のバージョンの治療\(R=r\)を受けたすべての人の結果は、その人がその特定のバージョンの治療を受けていた場合の結果と等しくなる。この言明は、以下の場合、治療のバージョンの定義によって真となる。実際、\(R_i = r\)と\(A_i(r) = a(r)\)を持つ個人\(i\)の反事実\(Y_{i}^{r, a(r)}\)を、実際の治療\(r\)と実際のバージョン\(a(r)\)のもとで彼が実際に得た個人\(i\)の結果と定義する。しかし、本文で議論したように、この整合性条件を使用することは、どのような効果が推定されているかを理解することを妨げ、交換可能性と肯定性を評価することを妨げるので、自滅的である。同様に、次のような仮説的介入を考える。「体重の決定因子を変更することによって、調査集団の非肥満者における決定因子の分布を反映するように、全員を非肥満に割り当てる」。この介入は、研究集団の各個人に治療のバージョンをランダムに割り当てることで、結果として得られる治療のバージョンの分布が、研究集団における治療のバージョンの分布と正確に一致するようにする。同様に、私たちは、全員を肥満であると割り当てる、別の仮説的なランダム介入を提案することができる。
このトリックは,多くの観察研究の分析で暗黙のうちに使用されており,リスク\(\text{Pr}[Y = 1|A = 1]\)と\(\text{Pr}[Y = 1|A = 0]\)(しばしば他の変数に条件付き)を比較し,その対比に因果的解釈を付与するものである.このトリックの問題点は、もちろん、提案されたランダムな介入が、我々が興味を持っている現実的な介入と一致しない可能性があることである。非肥満体重の人における決定因子の分布を反映するように体重の決定因子に介入する」ことで死亡率が例えば30%減少することを学んだとしても、現実的な介入(例えば、カロリー摂取量や運動レベルの修正)が死亡率も30%減少させることを意味するわけではない。実際、「集団における体重の決定因子」に介入することが遺伝的因子に介入することを必要とするのであれば、死亡率の30%低下は、現実の世界で実際に実施できる介入では達成できないかもしれない。

コメント

タイトルとURLをコピーしました