媒介分析
以前の記事で取り上げた。
この記事でも出てきたが、「調整済み直接効果 (Controlled Direct Effect, CDE)」や「自然な直接効果 (Natural Direct Effect, NDE)」といった語の意味が今ひとつわからない。しかし、「因果推論の科学」を読み、感覚が掴めた気がするので、記事にしてみる。
直接効果
調整済み直接効果
Controlled Direct Effect (CDE)と書く。簡単な例では、暴露変数\(X\)、アウトカム\(Y\)、媒介変数\(M\)があるとき、\(Y\)に対する\(X\)の直接効果は、\(M\)を変化させずに\(X\)を変化させれば求めることができる。例えば、\(X\)は性別、\(M\)は大学、\(Y\)は入学の合否としてみる。男性の場合、理系の大学に多く出願することが考えられる(例えば東京工業大学の入学者の男性比率は87%である)。一方、家政学部や文学部などは女性の比率のほうが高いだろう。DAGを書くと以下のようになる。
\(M\)を固定するということは、性別に関係なく、全員に東京工業大学に出願させるということを意味する。そして、出願する際に実際の性別とは無関係に、ランダムに性別を申告させ、合否率に差があるかを見る。式で書くと以下のようになる。$$CDE(0) = P(Y = 1|do(X = 1), do(M = 0))-P(Y = 1| do(X = 0), do(M = 0))$$\(CDE(0)\)の\(0\)は、媒介因子\(M\)の値を\(0\)で固定していることを示す。全員女子大学に出願させる場合は、\(M = 1\)などとして、\(CDE(1)\)と記載することができる。
自然な直接効果
\(CDE(0)\)と\(CDE(1)\)について、個々に報告することもできるだろうが、あまり意味がないと「因果推論の科学」は述べる。例えば、ある男性の志望者が東京工業大学への入学を希望しているとする。この学生は恐らく、数学や物理の成績は良いが、国語や社会についてはそれほど良い成績ではない可能性が高い。ところが、調整済み直接効果のように、\(M = 1\)が割り当てられると、この男性の成績は、入学審査委員会にとって奇異に映るだろう。この成績判断が、男性が入学試験で取る社会の成績は、恐らく入学の合否に大きな影響を与えるだろう。つまり、歪んだ結果を生む可能性が高い。この「過剰な調整」を回避する方法が、自然な直接効果 Natural Direct Effect (NDE)の測定である。つまり、志望者には\(CDE\)と同じように無作為に性別を申告させるが、出願先は普通に志望するはずの学部にさせる。式で書くと以下のようになる。$$NDE = P(Y_{M=M_0} = 1 | do(X = 1)) – P(Y_{M = M_0} = 1| do(X = 0))$$最初の項は、希望通りの学部に申告した女性が、偽の性別である男性を申告した場合に入学が認められる確率となる。この場合、大学の選択に影響を与えるのは実際の性別であるが、入学可否の決定に影響するのは申告された偽の性別になる。実際の性別を指示することはできないので、do演算子を用いず、半事実を表す下付き文字で表現されている。
間接効果
自然な間接効果
自然な間接効果 Natural Indirect Effect (NIE)も、上の\(NDE\)と同じように半事実の仮定が必要になる。「因果推論の科学」とは(ほとんど同じであるが)異なる例をあげてみよう。子どもがいたずらをするかどうかは、他の子どもがいるかどうかに左右される。あるわんぱくでいたずら好きな男の子がいるとする。ところが、A子ちゃんが遊びに来ると男の子はいたずらをしない。男の子の父親はこう言う。「きっとA子ちゃんのことが好きなんだな」。男の子の母親は違う意見である。「A子ちゃんのお父さんはあなたの上司でしょう。きっとA子ちゃんが遊びに来ているときは、いたずらをしないようにあなたが厳しくなっているのよ」。これをDAGで表すと以下のようになる。
そこで、男の子の両親は以下のような実験をしてみることにしてみた。つまり、「A子ちゃんが遊びに来ていないときに、父親が厳しく監視する」。この実験には、二重の半事実的な仮定が含まれている。\(NIE\)を数式で表すと以下のようになる。$$NIE = P(Y_{M=M_1} = 1 | do(X=0)) – P(Y_{M = M_0} = 1 | do(X = 0))$$
総合効果、直接効果、間接効果
間接効果を表現するのには複雑な式が必要であった。なぜ、「総合効果=直接効果+間接効果」のようなシンプルな式を用いることができないのであろうか。この式は、相互作用(交互作用、インタラクション)を含むモデルでは用いることができない。ここでは「因果推論の科学」の例を拝借する。触媒として働く酵素Aを分泌させる作用を持つ薬Xがあったとする。この薬Xは、酵素Aを分泌させることで病気を治療する。薬Xは病気を治療するので、総合効果はプラスである。だが、薬Xの直接効果はゼロである。この薬Xは、酵素Aのみを媒介して、病気を治療しているから、酵素Aの分泌を妨げてしまうと、薬は無用の長物となる。また、間接効果も同じくゼロである。薬Xを投与せずに、(別の手段で)人為的に酵素Aを分泌させても、触媒であるXがなければ、病気を治療することはできないだろう。この例では「総合効果=直接効果+間接効果」は成り立たない。
「総合効果=直接効果+間接効果」が成り立つのは、線形モデルにおいてである。
上の図では、線形モデルを想定している。処置Xを1増やすと、結果Yは7増える。また、媒介Mは2増える。媒介Mが1増えるとYは3増えるので、Xが1増えるとMを通じてYは6増える。したがって、この場合直接効果は7、間接効果は6\( = 2\times 3\)で、総合効果は\(7 + 6 = 13\)となる。
線形モデルの破綻例
こちらも取り上げられていた例になるが。ある求職者がいて、提示された給料が10以上だと就職するとする。提示される給料は、以下の図のように7\(\times\)Education+3\(\times\)Skillという式で決定される。
教育の値が\(1\)増えると、総合効果は\(7+3\times2 = 13\)増える。\(13 > 10\)なので、結果は\(0\)から\(1\)になる。よって、総合効果は\(1\)になる。間接効果は、教育を変化させず、スキルについてだけ、教育の値を\(1\)増やしたときに取るはずの値に設定する。給与は\(0\)から\(6\)に増えるが、\(6 < 10\)なので、間接効果(NIE)は\(0\)になる。
最後に直接効果であるが、媒介変数の値をどこに設定するかで異なる。例えばスキルの値を、教育が\(0\)のときに取るはずの値に固定すると、教育が\(0\)から\(1\)になったとき給料は\(0\)から\(7\)に上がる。\(7 < 10\)なので、結果は\(0\)になり、\(CDE(0) = 0\)となる。一方、スキルの値を教育の値が\(1\)のときに取るはずの値に固定すると、教育が\(0\)から\(1\)になったとき、給与は\(6\)から\(13\)に増える。この場合、結果は\(0\)から\(1\)になるので、\(CDE(2) = 1\)となる。このように、線形の仮定が成り立たない世界では、媒介変数の固定の仕方で結果に違い出てきてしまう。\(CDE(0)\)を採用すると、これは\(NDE\)とも一致するので、直感的にはこちらの方が良いと思われる。ところが、\(CDE(0)\)を採用すると、「総合効果=直接効果+間接効果」は\(1 \ne 0 + 0\)となり、成り立たない。
ところが\(X = 1\)、から\(X = 0\)に戻った場合の\(NIE\)を計算すると、給料は\(13\)から\(7\)に下がり、結果も\(0\)から\(1\)になる。これから\(NIE = -1\)であり、以下が成り立つ。$$\text{総合効果}(X = 0\rightarrow X = 1) = NDE(X = 0\rightarrow X = 1)-NIE(X = 1 \rightarrow X = 0)$$別の書き方をすると、\(1 = 0- (-1)\)となる。
「因果推論の科学」では、以下のように述べられている。「XのYへの間接効果とは、Xの値を固定しながら、Mの値をXが\(1\)増えた場合に得られるであろう値に増やしたときの\(Y\)の増加分のことである」。
関連記事
媒介分析について
交互作用項、interaction termについて
コメント