情報量
情報量やエントロピー (entropy)は、確率の用語として用いる場合、「ある事象がどれほど起こりにくいか」を表す尺度である。
数式での定義
ある事象が起こる確率を\(p\)としたとき、事象が起こったことを知るときに受け取る情報量\(I\)(あるいは選択情報量)は以下で定義される。$$I = \log{\frac{1}{p}} = -\log{p}$$ここで確率空間の定義から\(0\leq p\leq 1\)であるから、\(I\geq 0\)である。また、\(p\)が小さいときほど情報量の値は大きいこともわかる。
対数の底であるが、情報量は相対的なものなので、何でも良い。慣習的によく\(2\)が用いられ、この場合はシャノン情報量と言われている。
少し具体例で考えてみよう。表が出る確率が\(p\ (0\leq p\leq 1)\)、裏が出る確率が\(1-p\)のコインを考える。このコインの表が出たときの情報量は\(\displaystyle -\log_2{p} \)で、裏が出たときの情報量は\(-\log_2{(1-p)}\)である。一般的な数学の問題でよく用いられるコインの場合、\(\displaystyle p = \frac{1}{2}\)であるから、表が出たときも裏が出たときも情報量は\(\displaystyle -\log_{2}{\frac{1}{2}} = 1\)となる。\(p\)を変えたときの情報量を以下の表に示す。
\(p\) | \(\log_{2}{p}\) | \(\log_{2}{(1-p)}\) | |
0 | \(\displaystyle 0\) | NaN | 0 |
1 | \(\displaystyle \frac{1}{10}\) | 3.321928 | 0.152003 |
2 | \(\displaystyle \frac{1}{9}\) | 3.169925 | 0.169925 |
3 | \(\displaystyle \frac{1}{8}\) | 3.000000 | 0.192645 |
4 | \(\displaystyle \frac{1}{7}\) | 2.807355 | 0.222392 |
5 | \(\displaystyle \frac{1}{6}\) | 2.584963 | 0.263034 |
6 | \(\displaystyle \frac{1}{5}\) | 2.321928 | 0.321928 |
7 | \(\displaystyle \frac{1}{4}\) | 2.000000 | 0.415037 |
8 | \(\displaystyle \frac{1}{3}\) | 1.584963 | 0.584963 |
9 | \(\displaystyle \frac{1}{2}\) | 1.000000 | 1.000000 |
10 | 1 | 0 | NaN |
偏りが大きい事象(起こる確率の小さい事象)ほど情報量が大きいことが見てとれる。
平均情報量
上記の情報量に対して、確率分布との内積が平均情報量(エントロピー)になる。\(\Omega\)を確率空間として、\(\Omega\)上での確率分布\(p\)と情報量\(I\)に対して、定義は、以下のようになる。$$H = \sum_{\Omega}{pI}$$ただし、\(\displaystyle \lim_{p\to +\infty}{p\log{p}} = 0\)であるから、\(p= 0\)のとき\(\displaystyle p\log{p} = 0\)とみなす。上のコイン投げの表で、エントロピーを計算してみる。
\(p\) | \(-\log_{2}{p}\) | \(-\log_{2}{(1-p)}\) | \(-p*\log_{2}{p}-(1-p)*\log_{2}{(1-p)}\) | |
0 | 0.000000 | NaN | 0 | 0 |
1 | 0.100000 | 3.321928 | 0.152003 | 0.468996 |
2 | 0.111111 | 3.169925 | 0.169925 | 0.503258 |
3 | 0.125000 | 3.000000 | 0.192645 | 0.543564 |
4 | 0.142857 | 2.807355 | 0.222392 | 0.591673 |
5 | 0.166667 | 2.584963 | 0.263034 | 0.650022 |
6 | 0.200000 | 2.321928 | 0.321928 | 0.721928 |
7 | 0.250000 | 2.000000 | 0.415037 | 0.811278 |
8 | 0.333333 | 1.584963 | 0.584963 | 0.918296 |
9 | 0.500000 | 1.000000 | 1.000000 | 1.000000 |
10 | 1.000000 | 0 | NaN | 0 |
関数\(f(p) = -p\log_{2}{p} – (1-p)\log_{2}{(1-p)}\ (0\leq p\leq 1)\)をエントロピー関数といい、エントロピー関数のグラフは以下の図のようになる。
グラフを見ると、エントロピーが最大になるのは、\(\displaystyle p = \frac{1}{2}\)、つまり、表が出る確率も裏が出る確率も等しいときであることがわかる。
サイコロの例
ここでは少し違う例も考えてみる。\(n\)面のサイコロがあり、面\(i\ (1\leq i\leq n)\)が出る確率が\(p_{i}\ (0\leq p_i\leq 1)\)であるとする。ただし、\(\displaystyle \sum_{i=1}^{n}{p_i} = 1\)である。このとき、エントロピーは$$h = \sum_{i = 1}^{n}{-p_i\log_{2}{p_i}}$$となる。
ここで、Jensenの不等式から、$$\sum_{i=1}^{n}{-p_i\log_{2}{p_i}} \leq -\log_{2}{\left(\sum_{i=1}^{n}{{p_i}^2}\right)}$$であり、さらにコーシーシュワルツの不等式から、$$\sum_{i=1}^{n}{1^2}\sum_{i=1}^{n}{{p_i}^2}\geq \left(\sum_{i=1}^{n}{1\cdot p_i}\right)^2$$であるが、\(\displaystyle \sum_{i=1}^{n}{p_i} = 1\)であるから、これを変形すると$$\sum_{i=1}^{n}{{p_i}^2}\geq \frac{1}{n}$$となる。したがって、$$h\leq -\log_{2}{\frac{1}{n}} = \log_{2}{n}$$が成り立つ。等号が成り立つのは、\(\displaystyle p_1=p_2 = \cdots = p_n = \frac{1}{n}\)のときになる。
つまり、分布に偏りのないサイコロにおいて、エントロピーが最大になることがわかる。
情報量と情報量基準
これで情報量については大まかな理解が得られたので、次から情報量基準についてみていくことにする。
関連記事
2008年度前期東京工業大学数学問題3 コーシーシュワルツの不等式
コメント