[Statistics][Instrumental variant]操作変数法とはなにか？

Table of Contents

操作変数法(Instrumental variables (IV) estimation)とは

曝露が統制できないとき、つまり、処置がランダムに割り当てられないときに、因果推論を行うための手法である。

上の図で$X$は暴露因子あるいは説明因子、$Y$はアウトカムあるいは被説明因子である。$U$は未観測の交絡因子である。通常の回帰分析で$Y$を予測すると、$$Y = \alpha + \beta X + \gamma U + \epsilon$$となる。ここで、$\epsilon \sim \text{Normal}(0, {\sigma}^2_{\epsilon}), \text{Cor}(X, \epsilon) = 0$という前提が必要になる。しかし、大問題として、交絡因子$U$は観測できないので、係数$\beta$は$X$の$Y$に対する直接的な効果を見ているのか、あるいは$X$の$Y$に対する$U$を通じた間接的な効果を見ているのかがわからない。

では、妥協して交絡因子を無視して、以下の回帰分析を行うとどうだろうか。$$Y = \alpha_s + \beta_s X + \eta$$である。ここで、$\eta = \gamma U + \epsilon$とすると、$$Y = \alpha+\beta X + \eta$$となり、$\text{Cov}(X, U)\ne 0$であるから、当然$\text{Cor}(X, \eta) \ne 0$となり、説明変数である$X$と誤差項に相関が発生してしまう（これを、経済学などでは$X$が内生変数であるという）。

補題-回帰係数の表現について

ここで、一旦操作変数法のことは忘れて、一般に$Y = \alpha + \beta X + \epsilon$のとき、$\displaystyle \beta = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}$であることを示す。まず、$$\text{Cov}(X, Y) = \text{Cov}(X, \alpha + \beta X + \epsilon)$$である。今、$\text{Var}(X) = \text{Cov}(X, X)$に注意すると、$$\begin{eqnarray}\text{Cov}(X, Y) & = & 0 + \beta\text{Cov}(X, X) + 0\ \ (\text{Cov}(\epsilon) = 0)\\ & = & \beta \text{Var}(X)\end{eqnarray}$$となる。したがって、$\displaystyle \beta = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}$となる。

最小二乗推定量の期待値

今、上記の補題から、$$\begin{eqnarray}E(\hat{\beta_s}) & = & \frac{\text{Cov}(Y, X)}{\text{Var}(X)}\\ & = & \frac{\text{Cov}(\alpha+\beta X + \gamma U + \epsilon, X)}{\text{Var}(X)}\\ & = & \frac{\beta\text{Cov}(X, X)+\text{Cov}(\gamma U + \epsilon, X)}{\text{Var}(X)}\\ & = & \beta + \gamma \frac{\text{Cov}(U, X)}{\text{Var}(X)}\end{eqnarray}$$となる。つまり、上記の$\hat{\beta_s}$は本来求める$\beta$と比べて$\displaystyle \gamma \frac{\text{Cov}(U, X)}{\text{Var}(X)}$の分だけ偏り（バイアス）が生じている。ところで、上の補題を見ると、$\displaystyle \frac{\text{Cov}(U, X)}{\text{Var}(X)}$は、$X$を$U$に回帰したときの傾きとなっていることが分かる。

操作変数法

操作変数法 Instrumental variable method (IV)は、上記でバイアスがかかった$\hat{\beta_s}$でなく、バイアスのない$\beta$を推定するために用いられる。もう一度図$1$の右側を見る。操作変数として採用されるための条件は、以下の$3$つがある。

$1. $ 操作変数$Z$は、興味のある説明因子$X$と関連する（関連性仮定）。
$2. $ 操作変数$Z$は、観測できない交絡因子$U$とは独立している（独立性仮定）。
$3. $ 操作変数$Z$は、興味のある説明因子$X$を通じてのみ、$Y$に影響する（除外制約）。

このとき、操作変数の公式$\displaystyle \beta_{IV} = \frac{\text{Cov}(Y, Z)}{\text{Cov}(X, Z)}$が得られる。以下ではこの公式を示すことを目標とするが、まずこれを既知として、この$\beta_{IV} = \beta$となることを示す。すなわち$$\begin{eqnarray}\beta_{IV} & = & \frac{\text{Cov}(Y, Z)}{\text{Cov}(X, Z)}\\ & = & \frac{\text{Cov}(\alpha+\beta X + \gamma U + \epsilon, Z)}{\text{Cov}(X, Z)}\\ & = & \frac{1}{\text{Cov}(X, Z)}\left(\beta \text{Cov}(X, Z) + \gamma \text{Cov}(U, Z) + \text{Cov}(\epsilon, Z)\right)\end{eqnarray}$$であり、独立性の仮定から$\text{Cov}(U, Z) = 0$であり、除外制約から$\text{Cov}(\epsilon, Z) = 0$であり、さらに関連性の仮定から$\text{Cov}(X, Z)\ne 0$であるから、$\beta_{IV} = \beta$を得る。さらに、$$\begin{eqnarray}\beta_{IV} & = & \frac{\text{Cov}(Y, Z)}{\text{Cov}(X, Z)}\\ & = & \frac{\text{Cov}(Y, Z)/\text{Var}(Z)}{\text{Cov}(X, Z)/\text{Var}(Z)}\\ & = & \frac{\rho}{\phi}\end{eqnarray}$$となり、操作変数法で得られる推定量$\beta_{IV}$は次の$2$式の回帰係数の比となっている。つまり、$$\begin{eqnarray}X & = & \alpha_1 + \phi Z + \epsilon_1 \tag{a}\label{a}\\ Y & = & \alpha_0 + \rho Z + \epsilon_{0} \tag{b}\label{b}\end{eqnarray}$$である。

2段階回帰法 (two-stage least squares, 2SLS)

さて、上の式\eqref{b}で当然$\epsilon_0$は$Z$と相関するので、この式をそのまま用いるわけにはいかない。そこで、$2$段階回帰法 2SLSの出番である。まず、第$1$段階の回帰として、$$X = \alpha_1 + \phi Z + \epsilon_1 \tag{a2}\label{a2}$$は上の式と同一である。第$2$段階の回帰として、$$Y = \alpha_2 + \beta_{2SLS}\hat{X} + \epsilon_2 \tag{c}\label{c}$$とする。ここで、$\hat{X}$は第$1$段階の回帰から得られた$X$の予測値で、$$\hat{X} = \alpha_1 + \phi Z \tag{d}\label{d}$$である。単純な操作変数法では操作変数の数と内生変数の数はともに$1$つなので、$2$段階回帰の推定量$\beta_{2SLS}$と操作変数法の推定量$\beta_{IV}$は以下のように一致する。$$\begin{eqnarray}{\beta}_{2SLS} & = & \frac{\text{Cov}(Y, \hat{X})}{\text{Var}(\hat{X})}\\ & = & \frac{\text{Cov}(Y, \alpha_1 +\phi Z)}{\text{Var}(\alpha_1\phi Z)}\\ & = & \frac{\phi\text{Cov}(Y, Z)}{{\phi}^2\text{Var}(Z)}\\ & = & \frac{\rho}{\phi}\\ & = & \beta_{IV}\end{eqnarray}$$

2段階回帰を行うときの注意点

2SLSを行うときは、両方の回帰式\eqref{a2}, \eqref{c}に共変量を含める。

操作変数の数について

操作変数は複数存在しても良い。そして、操作変数の数は、説明因子が被説明因子に与える影響をどのように識別するかにおいて、影響を与える。ここで内生変数の数を$k$、操作変数の数を$m$とすると、$k = m$のときは「丁度識別」、$k < m$のときは「過剰識別」、そして$k > m$のときは「識別不能」となる。つまり、$m\geq k$（操作変数の数の方が内生変数よりも多い）となることが重要である。

操作変数と説明因子との関係 (Monotonicity)

やや単純な設定であるが、$Z, X$がともに$0$か$1$のみを取る変数としてみよう。このとき、$2\times 2$の表が考えられるが、これを以下のように呼ぶ。

Always-takerは常時処置、つまり、操作変数$Z$が$0$だろうが$1$だろうが常に$X$に暴露される群である。Complierは遵守、つまり操作変数に素直に従う群である。$Z = 0$のときは$X = 0$となり、$Z = 1$のときは$X = 1$となる。Defierは反抗者、Complierとは逆に、$Z = 0$のときは$X = 1$となり、$Z = 1$のときは$X = 0$となる群である。Never-takerは常時統制、つまり、操作変数$Z$が$0$でも$1$でも暴露にさらされることはない。

操作変数法ですべての群を観察できるわけではない。Always-takerとNever-takerについてはIVの有無に関わらず$X$が決まるので、処置の因果関係を推測することはできない。IV分析では、IVが治療の割り当てと関連しているため、Defiersは存在しないという仮定が重要である。操作変数法で対象となるのは、この$4$群全体ではなく、Complierのみであり、それ故IV法の平均処置効果(average treatment effect)は”complier average treatment effect”あるいは”local average treatment effect”と呼ばれる。