情報量
情報量やエントロピー (entropy)は、確率の用語として用いる場合、「ある事象がどれほど起こりにくいか」を表す尺度である。
数式での定義
ある事象が起こる確率を
対数の底であるが、情報量は相対的なものなので、何でも良い。慣習的によく
少し具体例で考えてみよう。表が出る確率が
0 | NaN | 0 | |
1 | 3.321928 | 0.152003 | |
2 | 3.169925 | 0.169925 | |
3 | 3.000000 | 0.192645 | |
4 | 2.807355 | 0.222392 | |
5 | 2.584963 | 0.263034 | |
6 | 2.321928 | 0.321928 | |
7 | 2.000000 | 0.415037 | |
8 | 1.584963 | 0.584963 | |
9 | 1.000000 | 1.000000 | |
10 | 1 | 0 | NaN |
偏りが大きい事象(起こる確率の小さい事象)ほど情報量が大きいことが見てとれる。
平均情報量
上記の情報量に対して、確率分布との内積が平均情報量(エントロピー)になる。
0 | 0.000000 | NaN | 0 | 0 |
1 | 0.100000 | 3.321928 | 0.152003 | 0.468996 |
2 | 0.111111 | 3.169925 | 0.169925 | 0.503258 |
3 | 0.125000 | 3.000000 | 0.192645 | 0.543564 |
4 | 0.142857 | 2.807355 | 0.222392 | 0.591673 |
5 | 0.166667 | 2.584963 | 0.263034 | 0.650022 |
6 | 0.200000 | 2.321928 | 0.321928 | 0.721928 |
7 | 0.250000 | 2.000000 | 0.415037 | 0.811278 |
8 | 0.333333 | 1.584963 | 0.584963 | 0.918296 |
9 | 0.500000 | 1.000000 | 1.000000 | 1.000000 |
10 | 1.000000 | 0 | NaN | 0 |
関数

グラフを見ると、エントロピーが最大になるのは、
サイコロの例
ここでは少し違う例も考えてみる。
ここで、Jensenの不等式から、
つまり、分布に偏りのないサイコロにおいて、エントロピーが最大になることがわかる。
情報量と情報量基準
これで情報量については大まかな理解が得られたので、次から情報量基準についてみていくことにする。
関連記事
2008年度前期東京工業大学数学問題3 コーシーシュワルツの不等式
コメント