[情報量][Statistics]情報量とは何か?

green and yellow printed textile statistics
Photo by Markus Spiske on Pexels.com

情報量

情報量やエントロピー (entropy)は、確率の用語として用いる場合、「ある事象がどれほど起こりにくいか」を表す尺度である。

数式での定義

ある事象が起こる確率をpとしたとき、事象が起こったことを知るときに受け取る情報量I(あるいは選択情報量)は以下で定義される。I=log1p=logpここで確率空間の定義から0p1であるから、I0である。また、pが小さいときほど情報量の値は大きいこともわかる。

対数の底であるが、情報量は相対的なものなので、何でも良い。慣習的によく2が用いられ、この場合はシャノン情報量と言われている。

少し具体例で考えてみよう。表が出る確率がp (0p1)、裏が出る確率が1pのコインを考える。このコインの表が出たときの情報量はlog2pで、裏が出たときの情報量はlog2(1p)である。一般的な数学の問題でよく用いられるコインの場合、p=12であるから、表が出たときも裏が出たときも情報量はlog212=1となる。pを変えたときの情報量を以下の表に示す。

plog2plog2(1p)
00NaN0
11103.3219280.152003
2193.1699250.169925
3183.0000000.192645
4172.8073550.222392
5162.5849630.263034
6152.3219280.321928
7142.0000000.415037
8131.5849630.584963
9121.0000001.000000
1010NaN
単純な確率試行と情報量。

偏りが大きい事象(起こる確率の小さい事象)ほど情報量が大きいことが見てとれる。

平均情報量

上記の情報量に対して、確率分布との内積が平均情報量(エントロピー)になる。Ωを確率空間として、Ω上での確率分布pと情報量Iに対して、定義は、以下のようになる。H=ΩpIただし、limp+plogp=0であるから、p=0のときplogp=0とみなす。上のコイン投げの表で、エントロピーを計算してみる。

plog2plog2(1p)plog2p(1p)log2(1p)
00.000000NaN00
10.1000003.3219280.1520030.468996
20.1111113.1699250.1699250.503258
30.1250003.0000000.1926450.543564
40.1428572.8073550.2223920.591673
50.1666672.5849630.2630340.650022
60.2000002.3219280.3219280.721928
70.2500002.0000000.4150370.811278
80.3333331.5849630.5849630.918296
90.5000001.0000001.0000001.000000
101.0000000NaN0
エントロピーを追加。

関数f(p)=plog2p(1p)log2(1p) (0p1)をエントロピー関数といい、エントロピー関数のグラフは以下の図のようになる。

f(p)=plog2p(1p)log2(1p)のグラフ。

グラフを見ると、エントロピーが最大になるのは、p=12、つまり、表が出る確率も裏が出る確率も等しいときであることがわかる。

サイコロの例

ここでは少し違う例も考えてみる。n面のサイコロがあり、面i (1in)が出る確率がpi (0pi1)であるとする。ただし、i=1npi=1である。このとき、エントロピーはh=i=1npilog2piとなる。

ここで、Jensenの不等式から、i=1npilog2pilog2(i=1npi2)であり、さらにコーシーシュワルツの不等式から、i=1n12i=1npi2(i=1n1pi)2であるが、i=1npi=1であるから、これを変形するとi=1npi21nとなる。したがって、hlog21n=log2nが成り立つ。等号が成り立つのは、p1=p2==pn=1nのときになる。

つまり、分布に偏りのないサイコロにおいて、エントロピーが最大になることがわかる。

情報量と情報量基準

これで情報量については大まかな理解が得られたので、次から情報量基準についてみていくことにする。

関連記事

2008年度前期東京工業大学数学問題3 コーシーシュワルツの不等式

関連リンク

情報量 - Wikipedia

コメント

タイトルとURLをコピーしました