[Statistics]Bayesian Data Analysis Third edition part2

Table of Contents

Link

http://www.stat.columbia.edu/~gelman/book/

長くなりすぎたので分割。Part1はこちら。

Part1 Fundamentals of Bayesian Inference

Chapter 3 Introduction to multiparameter models

3.1 Averaging over ‘nuisance parameters’

局外パラメータnuisance parametersの話である。ベクトル$\theta = ({\theta}_1, {\theta}_2)$とする。このとき、${\theta}_1$のみに興味があるとすると、${\theta}_2$は局外パラメータになる。単純な例として$$y\mid \mu, {\sigma}^2 \sim \text{N}(\mu, {\sigma}^2)$$を考える。$\mu = {\theta}_1$と${\sigma}^2 = {\theta}_2$はどちらも未知であるが、多くの場合興味があるのは平均$\mu$だけだろう。興味があるパラメータの条件付き確率分布を観測データに基づき求める。これは以下の同時事後分布の式$$p({\theta}_1, {\theta}_2\mid y) \propto p(y\mid {\theta}_1, {\theta}_2)p({\theta}_1, {\theta}_2)$$と、$$p({\theta}_1\mid y) = \int{p({\theta}_1, {\theta}_2\mid y)d{\theta}_2}$$から得ることができる。または、以下のようにしても良い。$$p({\theta}_1\mid y) = \int{p({\theta}_1\mid{\theta}_2, y)p({\theta}_2\mid y)d{\theta}_2} \tag{3.1}\label{eq3.1}$$この式は興味ある事後分布$p({\theta}_1\mid y)$が与えられた局外パラメータ${\theta}_2$による条件付き事後分布と、$p({\theta}_2\mid y)$の混合であることを示している。また、$p({\theta}_2\mid y)$は${\theta}_2$の取り得る値に対しての重み付き関数である。局外パラメータ${\theta}_2$の平均化は一般的に解釈できる。たとえば${\theta}_2$には考えられるさまざまなサブモデルを表す個別のコンポーネントを含めることができる。

3.2 Normal data with a noninformative prior distribution

A noninformative prior distribution

$2$章(p.54)では位置と尺度パラメータの事前分布が独立であるならば、$(\mu, \sigma)$に対して$(\mu, \log{\sigma})$はともに一様分布に従うということを見た。あるいは、$$p(\mu, {\sigma}^2) \propto {({\sigma}^2)}^{-1}$$である。

The joint posterior distribution, $p(\mu, {\sigma}^2\mid y)$

この従来の不適切な事前密度では、結合事後分布は尤度関数に係数$\displaystyle \frac{1}{{\sigma}^2}$を掛けたものに比例する。$$\begin{eqnarray}p(\mu, {\sigma}^2\mid y) & \propto & {\sigma}^{-n-2}\exp{\left(-\frac{1}{2{\sigma}^2}\sum_{i=1}^{n}{(y_i-\mu)^2}\right)}\\ & = & {\sigma}^{-n-2}\exp{\left(-\frac{1}{2{\sigma}^2}\left[\sum_{i=1}^{n}{(y_i-\bar{y})^2} + n(\bar{y}-\mu)^2\right]\right)}\\ & = & {\sigma}^{-n-2}\exp{\left(-\frac{1}{2{\sigma}^2}\left[(n-1)s^2 + n(\bar{y}-\mu)^2\right]\right)} \tag{3.2}\label{eq3.2}\end{eqnarray}$$であり、$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}{(y_i-\bar{y})^2}$$で単純な$y_i\ \ (i = 1, 2, \cdots, n)$の分散である。$\bar{y}$の十分統計量は$s^2$となる。同時事後分布を\eqref{eq3.1}のように因数分解するために、最初に条件付き事後分布$p(\mu\mid {\sigma}^2, y)$を考慮し、次に周辺事後分布$p({\sigma}^2\mid y)$を考える。与えられた${\sigma}^2$に対して$\mu$の事後分布を決定するため、2.5章\eqref{eq2.13}で得られた既知の分散を有する正規分布の平均および一様事前分布に関する以下の結果を用いる。$$\mu\mid {\sigma}^2, y \sim \text{N}\left(\bar{y}, \frac{{\sigma}^2}{n}\right) \tag{3.3}\label{eq3.3}$$

The marginal posterior distribution, $p({\sigma}^2\mid y)$

$p({\sigma}^2\mid y)$を決定するため、結合分布\eqref{eq3.2}を$\mu$について積分する。$$p({\sigma}^2\mid y) \propto \int{{\sigma}^{-n-2}\exp{\left(-\frac{1}{2{\sigma}^2}\left[(n-1)s^2+n(\bar{y}-\mu)^2\right]\right)}d\mu}$$これは、$$\begin{eqnarray}p({\sigma}^2\mid y) & \propto & {\sigma}^{-n-2}\exp{\left(-\frac{1}{2{\sigma}^2}(n-1)s^2\right)}\sqrt{\frac{2\pi{\sigma}^2}{m}}\\ & \propto & {(\sigma)}^{-\frac{n+1}{2}}\exp{\left(-\frac{(n-1)s^2}{2{\sigma}^2}\right)} \tag{3.4}\label{eq3.4}\end{eqnarray}$$これは尺度付き逆カイ二乗分布であり、以下のように書ける。$${\sigma}^2 \mid y \sim \text{Inv}-{\chi}^2(n-1, s^2) \tag{3.5}\label{eq3.5}$$このように結合事後分布である\eqref{eq3.2}を条件付き事後分布と周辺事後分布の積$p(\mu, {\sigma}^2\mid y) = p(\mu\mid {\sigma}^2, y)p({\sigma}^2\mid y)$に因数分解することができた。この${\sigma}^2$についての周辺事後分布は類似のサンプリング理論の結果と驚くほど一致している。すなわち、${\sigma}^2$と$\mu$に条件付けられた適切に尺度化された十分統計量$\displaystyle \frac{(n-1)s^2}{{\sigma}^2}$を有する${{\chi}_{n-1}}^2$分布である。しかし，section2.8で行ったスケールパラメーターの参照事前分布の導出を考慮すればこの結果は驚くには値しない。

Sampling from the joint posterior distribution

まず\eqref{eq3.5}から${\sigma}^2$を引き、次に\eqref{eq3.3}から$\mu$を引けば、結合事後分布から簡単にサンプルを導くことができる。これは閉形式で解ける簡単な数少ないマルチパラメーター問題であり、事後分布の解析的な結果も導出することができる。

Analytic form of the marginal posterior distribution of $\mu$

母平均$\mu$は一般的に注目される推定量であり、ベイズ分析の目的は$\mu$の周辺事後分布であり，これは結合事後分布から${\sigma}^2$を積分することによって得られる。\eqref{eq3.1}の表現から、$\mu$の事後分布は、分散${\sigma}^2$に対して尺度付き逆${\chi}^2$分布上で混合された正規分布の混合物とみなすことができる。共同事後密度を${\sigma}^2$上で積分することにより、$\mu$の周辺事後密度を導出することができる。$$p(\mu\mid y) = \int_{0}^{\infty}{p(\mu\mid {\sigma}^2\mid y)d{\sigma}^2}$$この積分は以下の置換を行うことで評価できる。$$z = \frac{A}{2{\sigma}^2}, \ \ A = (n-1)s^2+n(\mu-\bar{y})^2$$そして、結果は正規化されていないガンマ積分である。$$\begin{eqnarray}p(\mu\mid y) & \propto& A^{-\frac{n}{2}}\int_{0}^{\infty}{z^{\frac{n-2}{2}}\exp{(-z)}dz} \\ & \propto & [(n-1)s^2+n(\mu-\bar{y})^2]^{-\frac{n}{2}}\\ & = & \left[1+\frac{n(\mu-\bar{y})^2}{(n-1)s^2}\right]^{-\frac{n}{2}}\end{eqnarray}$$これは、$\displaystyle t_{n-1}\left(\bar{y}, \frac{s^2}{n}\right)$である。別の言い方をすれば、$(\mu, \log{\sigma})$に対する非情報的一様事前分布のもとで、$\mu$の事後分布は次のような形になることを示した。$$\left.\frac{\mu-\bar{y}}{s/\sqrt{n}}\middle| y \sim t_{n-1}\right.$$ここで$t_{n-1}$は標準$t$分布（位置パラメータ$0$、尺度$1$）を表し、その自由度は$n-1$である。この周辺事後分布は、サンプリング理論とのもう一つの興味深い比較を提供する。サンプリング分布$p(y\mid \mu, {\sigma}^2)$の元で、以下の関係式が成り立つ。$$\left.\frac{\bar{y}-\mu}{s/\sqrt{n}}\middle| \mu, {\sigma}^2\sim t_{n-1}\right.$$主成分$\displaystyle \frac{\bar{y}-\mu}{s/\sqrt{n}}$のサンプリング分布は局外パラメータ${\sigma}^2$に依存せず、その事後分布はデータに依存しない。推定量に対する重要な量とはデータと推定量の自明でない関数で、そのサンプリング分布がすべてのパラメータとデータから独立であると定義される。

Posterior predictive distribution for a future observation

将来の観測$\bar{y}$に対する事後予測分布は以下の様に表される。$$p(\bar{y}\mid y) = \int{\int{p(\bar{y}\mid \mu, {\sigma}^2, y)p(\mu, {\sigma}^2\mid y)}d\mu d{\sigma}^2}$$積分の中の最初の項は与えられた$(\mu, {\sigma}^2)$における将来の観測に対する正規分布であり、$y$に依存しない。事後予測分布を導くため、最初に結合事後分布から$\mu, {\sigma}^2$を導き、$\bar{y}\sim \text{N}(\mu, {\sigma}^2)$によって$\bar{y}$を推定している。

実際、$\bar{y}$の事後予測分布は位置$\bar{y}$で尺度$\displaystyle \left(1+\frac{1}{n}\right)^{\frac{1}{2}}s$で自由度$n-1$の$t$分布である。

3.3 Normal data with a conjugate prior distribution

A family of conjugate prior distributions

より一般的なモデルへの第一歩として、先ほど考えた非情報的な事前分布の代わりに，$2$パラメータ変量正規サンプリングモデルに対する共役事前分布を仮定してみる。\eqref{eq3.2}で示された尤度の形とその後の議論は、共役事前分布が$p({\sigma}^2p(\mu\mid {\sigma}^2))$の積の形をしていなければならないことを示している。ここで、${\sigma}^2$の周辺分布は尺度付き${\chi}^2$分布であり、与えられた${\sigma}^2$における$\mu$の条件付き分布は正規分布である。したがって、$\mu$の周辺分布は$t$分布である。以下のパラメータ化が簡便である。$$\begin{eqnarray}\mu\mid {\sigma}^2 & \sim & \text{N}\left(\mu_0, \frac{{\sigma}^2}{{\kappa}_0}\right)\\ {\sigma}^2 & \sim & \text{Inv}-{\chi}^2({\nu}_0, {{\sigma}_0}^2)\end{eqnarray}$$これは以下の結合事後分布に相当する。$$p(\mu, {\sigma}^2)\propto {\sigma}^{-1}({\sigma}^2)^{-\frac{{\nu}_0}{2}+1}\exp{\left(-\frac{1}{2{\sigma}^2}\left[{\nu}_0{{\sigma}_0}^2+{\kappa}_0({\mu}_0-\mu)^2\right]\right)} \tag{3.6}\label{eq3.6}$$

3.5 Multivariate normal model with known variance

Multivariate normal likelihood

基本的なモデルとして、観察可能な次元$d$のベクトル$y$の多変量正規分布モデルを考慮する。$$y\mid\mu, \Sigma \sim \text{N}(\mu, \Sigma) \tag{3.10}\label{eq3.10}$$ここで$\mu$は長さ$d$の列ベクトルであり、$\sum$は$d\times d$の対称行列で、各要素はすべて正である。一観測要素に対する尤度は$$p(y\mid \mu, \Sigma) \propto \left|\Sigma\right|^{-\frac{1}{2}}\exp{\left(-\frac{1}{2}(y-\mu)^{T}{\Sigma}^{-1}(y-\mu)\right)}$$であった。$n$個の独立で同一分布に従う観測$y_1, \cdots, y_n$に対しては$$p(y_1, \cdots, y_n\mid \mu, \Sigma) \propto \left|\Sigma\right|^{-\frac{1}{2}}\exp{\left(-\frac{1}{2}\sum_{i=1}^{n}{(y_i-\mu)}^{T}{\Sigma}^{-1}{(y_i-\mu)}\right)} \tag{3.11}\label{eq3.11}$$となる。

Conojugate analysis

単一変数の場合と同様に、多変量正規分布モデルについて、最初に$\Sigma$が知られている場合について考える。

Conjugate prior distribution for $\mu$ with known $\Sigma$

$\mu$の対数尤度は二次式の形になり、それ故$\mu$の共役事前分布は多変量正規分布になる。これを$\mu \sim \text{N}({\mu}_0, {\Lambda}_0)$と表す。

Posterior distribution for $\mu$ for with known $\Sigma$

$\mu$の事後分布は$$p(\mu \mid y, \Sigma) \propto \exp{\left(-\frac{1}{2}\left((\mu-{\mu}_0)^{T}{\Lambda_0}^{-1}(\mu-{\mu}_0)+\sum_{i=1}^{n}{(y_i-\mu)^{T}{\Sigma}^{-1}(y_i-\mu)}\right)\right)}$$となる。これは$\mu$について二次式の指数の形になっている。計算を進めると、$$\begin{eqnarray}p(\mu \mid y, \Sigma) & \propto & \exp{\left(-\frac{1}{2}(\mu-{\mu}_n)^{T}{\Lambda_n}^{-1}(\mu -\mu_n)\right)}\\ & = & \text{N}(\mu\mid {\mu}_n, \Lambda_n)\end{eqnarray}$$となる。ここで、$$\begin{eqnarray}{\mu}_n & = & ({\Lambda}_0^{-1} + n{\Sigma}^{-1})^{-1}({{\Lambda}_0}^{-1}{\mu}_0+n{\Sigma}^{-1}\bar{y})\\ {\Lambda_0}^{-1} & = & {{\Lambda}_0}^{-1} + n{\Sigma}^{-1}\end{eqnarray} \tag{3.12}\label{eq3.12}$$である。

これは2.2.5 2.5 Normal distribution with known varianceで得た結果と同様であり、事後分布の平均はデータの平均と事前分布の平均によって重み付けされている。その重みというのが、データと事前精度である$n{\Sigma}^{-1}$と${\Lambda}_{0}^{-1}$である。

Posterior conditional and marginal distributions of subvectors of $\mu$ with known $\Sigma$

多変量正規分布の特徴から、例えばパラメータの集合である$\mu^{(1)}$などの周辺事後分布は、また多変量正規分布であり、その平均ベクトルは事後平均ベクトル$\mu_n$の適切な部分ベクトルに等しく、分散行列は$\Lambda_n$の適切な部分行列に等しい。また、次の集合$\mu^{(2)}$が与えられた上での集合$\mu^{(1)}$の条件付き事後分布はまた多変量正規分布である。上付き文字を括弧で囲んで適切な部分ベクトルと部分行列を示すと、$$\mu^{(1)}\mid \mu^{(2)}, y \sim N\left({\mu}_{n}^{(1)} + \beta^{1|2}(\mu^{(2)}-{\mu}_n^{(2)}), {\Lambda}^{1|2}\right) \tag{3.13}\label{eq3.13}$$となる。ここで回帰係数${\beta}^{1|2}$と条件付き分散行列${\Lambda}^{1|2}$は次のように定義される。$$\begin{eqnarray}{\beta}^{1|2} & = & {\Lambda}_{n}^{(12)}\left({\Lambda}_{n}^{(22)}\right)^{-1}\\ {\Lambda}^{1|2} & = & {\Lambda}_{n}^{(11)}-{\Lambda}_{n}^{(12)}\left({\Lambda}_{n}^{(22)}\right)^{-1}{\Lambda}_{n}^{(21)}\end{eqnarray}$$