[Statistics]Bayesian Data Analysis Third edition part2

person pointing paper line graph statistics
Photo by Lukas on Pexels.com

Link

301 Moved Permanently

長くなりすぎたので分割。Part1はこちら。

Part1

Part1 Fundamentals of Bayesian Inference

Chapter 3 Introduction to multiparameter models

3.1 Averaging over ‘nuisance parameters’

局外パラメータnuisance parametersの話である。ベクトルθ=(θ1,θ2)とする。このとき、θ1のみに興味があるとすると、θ2は局外パラメータになる。単純な例としてyμ,σ2N(μ,σ2)を考える。μ=θ1σ2=θ2はどちらも未知であるが、多くの場合興味があるのは平均μだけだろう。興味があるパラメータの条件付き確率分布を観測データに基づき求める。これは以下の同時事後分布の式p(θ1,θ2y)p(yθ1,θ2)p(θ1,θ2)と、p(θ1y)=p(θ1,θ2y)dθ2から得ることができる。または、以下のようにしても良い。(3.1)p(θ1y)=p(θ1θ2,y)p(θ2y)dθ2この式は興味ある事後分布p(θ1y)が与えられた局外パラメータθ2による条件付き事後分布と、p(θ2y)の混合であることを示している。また、p(θ2y)θ2の取り得る値に対しての重み付き関数である。局外パラメータθ2の平均化は一般的に解釈できる。たとえばθ2には考えられるさまざまなサブモデルを表す個別のコンポーネントを含めることができる。

3.2 Normal data with a noninformative prior distribution

A noninformative prior distribution

2章(p.54)では位置と尺度パラメータの事前分布が独立であるならば、(μ,σ)に対して(μ,logσ)はともに一様分布に従うということを見た。あるいは、p(μ,σ2)(σ2)1である。

The joint posterior distribution, p(μ,σ2y)

この従来の不適切な事前密度では、結合事後分布は尤度関数に係数1σ2を掛けたものに比例する。p(μ,σ2y)σn2exp(12σ2i=1n(yiμ)2)=σn2exp(12σ2[i=1n(yiy¯)2+n(y¯μ)2])(3.2)=σn2exp(12σ2[(n1)s2+n(y¯μ)2])であり、s2=1n1i=1n(yiy¯)2で単純なyi  (i=1,2,,n)の分散である。y¯の十分統計量はs2となる。同時事後分布を(3.1)のように因数分解するために、最初に条件付き事後分布p(μσ2,y)を考慮し、次に周辺事後分布p(σ2y)を考える。与えられたσ2に対してμの事後分布を決定するため、2.5章(???)で得られた既知の分散を有する正規分布の平均および一様事前分布に関する以下の結果を用いる。(3.3)μσ2,yN(y¯,σ2n)

The marginal posterior distribution, p(σ2y)

p(σ2y)を決定するため、結合分布(3.2)μについて積分する。p(σ2y)σn2exp(12σ2[(n1)s2+n(y¯μ)2])dμこれは、p(σ2y)σn2exp(12σ2(n1)s2)2πσ2m(3.4)(σ)n+12exp((n1)s22σ2)これは尺度付き逆カイ二乗分布であり、以下のように書ける。(3.5)σ2yInvχ2(n1,s2)このように結合事後分布である(3.2)を条件付き事後分布と周辺事後分布の積p(μ,σ2y)=p(μσ2,y)p(σ2y)に因数分解することができた。このσ2についての周辺事後分布は類似のサンプリング理論の結果と驚くほど一致している。すなわち、σ2μに条件付けられた適切に尺度化された十分統計量(n1)s2σ2を有するχn12分布である。しかし,section2.8で行ったスケールパラメーターの参照事前分布の導出を考慮すればこの結果は驚くには値しない。

Sampling from the joint posterior distribution

まず(3.5)からσ2を引き、次に(3.3)からμを引けば、結合事後分布から簡単にサンプルを導くことができる。これは閉形式で解ける簡単な数少ないマルチパラメーター問題であり、事後分布の解析的な結果も導出することができる。

Analytic form of the marginal posterior distribution of μ

母平均μは一般的に注目される推定量であり、ベイズ分析の目的はμの周辺事後分布であり,これは結合事後分布からσ2を積分することによって得られる。(3.1)の表現から、μの事後分布は、分散σ2に対して尺度付き逆χ2分布上で混合された正規分布の混合物とみなすことができる。共同事後密度をσ2上で積分することにより、μの周辺事後密度を導出することができる。p(μy)=0p(μσ2y)dσ2この積分は以下の置換を行うことで評価できる。z=A2σ2,  A=(n1)s2+n(μy¯)2そして、結果は正規化されていないガンマ積分である。p(μy)An20zn22exp(z)dz[(n1)s2+n(μy¯)2]n2=[1+n(μy¯)2(n1)s2]n2これは、tn1(y¯,s2n)である。別の言い方をすれば、(μ,logσ)に対する非情報的一様事前分布のもとで、μの事後分布は次のような形になることを示した。μy¯s/n|ytn1ここでtn1は標準t分布(位置パラメータ0、尺度1)を表し、その自由度はn1である。この周辺事後分布は、サンプリング理論とのもう一つの興味深い比較を提供する。サンプリング分布p(yμ,σ2)の元で、以下の関係式が成り立つ。y¯μs/n|μ,σ2tn1主成分y¯μs/nのサンプリング分布は局外パラメータσ2に依存せず、その事後分布はデータに依存しない。推定量に対する重要な量とはデータと推定量の自明でない関数で、そのサンプリング分布がすべてのパラメータとデータから独立であると定義される。

Posterior predictive distribution for a future observation

将来の観測y¯に対する事後予測分布は以下の様に表される。p(y¯y)=p(y¯μ,σ2,y)p(μ,σ2y)dμdσ2積分の中の最初の項は与えられた(μ,σ2)における将来の観測に対する正規分布であり、yに依存しない。事後予測分布を導くため、最初に結合事後分布からμ,σ2を導き、y¯N(μ,σ2)によってy¯を推定している。

実際、y¯の事後予測分布は位置y¯で尺度(1+1n)12sで自由度n1t分布である。

3.3 Normal data with a conjugate prior distribution

A family of conjugate prior distributions

より一般的なモデルへの第一歩として、先ほど考えた非情報的な事前分布の代わりに,2パラメータ変量正規サンプリングモデルに対する共役事前分布を仮定してみる。(3.2)で示された尤度の形とその後の議論は、共役事前分布がp(σ2p(μσ2))の積の形をしていなければならないことを示している。ここで、σ2の周辺分布は尺度付きχ2分布であり、与えられたσ2におけるμの条件付き分布は正規分布である。したがって、μの周辺分布はt分布である。以下のパラメータ化が簡便である。μσ2N(μ0,σ2κ0)σ2Invχ2(ν0,σ02)これは以下の結合事後分布に相当する。(3.6)p(μ,σ2)σ1(σ2)ν02+1exp(12σ2[ν0σ02+κ0(μ0μ)2])

3.5 Multivariate normal model with known variance

Multivariate normal likelihood

基本的なモデルとして、観察可能な次元dのベクトルyの多変量正規分布モデルを考慮する。(3.10)yμ,ΣN(μ,Σ)ここでμは長さdの列ベクトルであり、d×dの対称行列で、各要素はすべて正である。一観測要素に対する尤度はp(yμ,Σ)|Σ|12exp(12(yμ)TΣ1(yμ))であった。n個の独立で同一分布に従う観測y1,,ynに対しては(3.11)p(y1,,ynμ,Σ)|Σ|12exp(12i=1n(yiμ)TΣ1(yiμ))となる。

Conojugate analysis

単一変数の場合と同様に、多変量正規分布モデルについて、最初にΣが知られている場合について考える。

Conjugate prior distribution for μ with known Σ

μの対数尤度は二次式の形になり、それ故μの共役事前分布は多変量正規分布になる。これをμN(μ0,Λ0)と表す。

Posterior distribution for μ for with known Σ

μの事後分布はp(μy,Σ)exp(12((μμ0)TΛ01(μμ0)+i=1n(yiμ)TΣ1(yiμ)))となる。これはμについて二次式の指数の形になっている。計算を進めると、p(μy,Σ)exp(12(μμn)TΛn1(μμn))=N(μμn,Λn)となる。ここで、(3.12)μn=(Λ01+nΣ1)1(Λ01μ0+nΣ1y¯)Λ01=Λ01+nΣ1である。

これは2.2.5 2.5 Normal distribution with known varianceで得た結果と同様であり、事後分布の平均はデータの平均と事前分布の平均によって重み付けされている。その重みというのが、データと事前精度であるnΣ1Λ01である。

Posterior conditional and marginal distributions of subvectors of μ with known Σ

多変量正規分布の特徴から、例えばパラメータの集合であるμ(1)などの周辺事後分布は、また多変量正規分布であり、その平均ベクトルは事後平均ベクトルμnの適切な部分ベクトルに等しく、分散行列はΛnの適切な部分行列に等しい。また、次の集合μ(2)が与えられた上での集合μ(1)の条件付き事後分布はまた多変量正規分布である。上付き文字を括弧で囲んで適切な部分ベクトルと部分行列を示すと、(3.13)μ(1)μ(2),yN(μn(1)+β1|2(μ(2)μn(2)),Λ1|2)となる。ここで回帰係数β1|2と条件付き分散行列Λ1|2は次のように定義される。β1|2=Λn(12)(Λn(22))1Λ1|2=Λn(11)Λn(12)(Λn(22))1Λn(21)

Posterior predictive distribution for new data

新しい観測y~N(μ,Σ)に対する事後予測分布について検討する。

コメント

タイトルとURLをコピーしました