[情報量][Statistics]情報量とは何か?

green and yellow printed textile statistics
Photo by Markus Spiske on Pexels.com

情報量

情報量やエントロピー (entropy)は、確率の用語として用いる場合、「ある事象がどれほど起こりにくいか」を表す尺度である。

数式での定義

ある事象が起こる確率を\(p\)としたとき、事象が起こったことを知るときに受け取る情報量\(I\)(あるいは選択情報量)は以下で定義される。$$I = \log{\frac{1}{p}} = -\log{p}$$ここで確率空間の定義から\(0\leq p\leq 1\)であるから、\(I\geq 0\)である。また、\(p\)が小さいときほど情報量の値は大きいこともわかる。

対数の底であるが、情報量は相対的なものなので、何でも良い。慣習的によく\(2\)が用いられ、この場合はシャノン情報量と言われている。

少し具体例で考えてみよう。表が出る確率が\(p\ (0\leq p\leq 1)\)、裏が出る確率が\(1-p\)のコインを考える。このコインの表が出たときの情報量は\(\displaystyle -\log_2{p} \)で、裏が出たときの情報量は\(-\log_2{(1-p)}\)である。一般的な数学の問題でよく用いられるコインの場合、\(\displaystyle p = \frac{1}{2}\)であるから、表が出たときも裏が出たときも情報量は\(\displaystyle -\log_{2}{\frac{1}{2}} = 1\)となる。\(p\)を変えたときの情報量を以下の表に示す。

\(p\)\(\log_{2}{p}\)\(\log_{2}{(1-p)}\)
0\(\displaystyle 0\)NaN0
1\(\displaystyle \frac{1}{10}\)3.3219280.152003
2\(\displaystyle \frac{1}{9}\)3.1699250.169925
3\(\displaystyle \frac{1}{8}\)3.0000000.192645
4\(\displaystyle \frac{1}{7}\)2.8073550.222392
5\(\displaystyle \frac{1}{6}\)2.5849630.263034
6\(\displaystyle \frac{1}{5}\)2.3219280.321928
7\(\displaystyle \frac{1}{4}\)2.0000000.415037
8\(\displaystyle \frac{1}{3}\)1.5849630.584963
9\(\displaystyle \frac{1}{2}\)1.0000001.000000
1010NaN
単純な確率試行と情報量。

偏りが大きい事象(起こる確率の小さい事象)ほど情報量が大きいことが見てとれる。

平均情報量

上記の情報量に対して、確率分布との内積が平均情報量(エントロピー)になる。\(\Omega\)を確率空間として、\(\Omega\)上での確率分布\(p\)と情報量\(I\)に対して、定義は、以下のようになる。$$H = \sum_{\Omega}{pI}$$ただし、\(\displaystyle \lim_{p\to +\infty}{p\log{p}} = 0\)であるから、\(p= 0\)のとき\(\displaystyle p\log{p} = 0\)とみなす。上のコイン投げの表で、エントロピーを計算してみる。

\(p\)\(-\log_{2}{p}\)\(-\log_{2}{(1-p)}\)\(-p*\log_{2}{p}-(1-p)*\log_{2}{(1-p)}\)
00.000000NaN00
10.1000003.3219280.1520030.468996
20.1111113.1699250.1699250.503258
30.1250003.0000000.1926450.543564
40.1428572.8073550.2223920.591673
50.1666672.5849630.2630340.650022
60.2000002.3219280.3219280.721928
70.2500002.0000000.4150370.811278
80.3333331.5849630.5849630.918296
90.5000001.0000001.0000001.000000
101.0000000NaN0
エントロピーを追加。

関数\(f(p) = -p\log_{2}{p} – (1-p)\log_{2}{(1-p)}\ (0\leq p\leq 1)\)をエントロピー関数といい、エントロピー関数のグラフは以下の図のようになる。

\(f(p) = -p*\log_{2}{p}-(1-p)*\log_{2}{(1-p)}\)のグラフ。

グラフを見ると、エントロピーが最大になるのは、\(\displaystyle p = \frac{1}{2}\)、つまり、表が出る確率も裏が出る確率も等しいときであることがわかる。

サイコロの例

ここでは少し違う例も考えてみる。\(n\)面のサイコロがあり、面\(i\ (1\leq i\leq n)\)が出る確率が\(p_{i}\ (0\leq p_i\leq 1)\)であるとする。ただし、\(\displaystyle \sum_{i=1}^{n}{p_i} = 1\)である。このとき、エントロピーは$$h = \sum_{i = 1}^{n}{-p_i\log_{2}{p_i}}$$となる。

ここで、Jensenの不等式から、$$\sum_{i=1}^{n}{-p_i\log_{2}{p_i}} \leq -\log_{2}{\left(\sum_{i=1}^{n}{{p_i}^2}\right)}$$であり、さらにコーシーシュワルツの不等式から、$$\sum_{i=1}^{n}{1^2}\sum_{i=1}^{n}{{p_i}^2}\geq \left(\sum_{i=1}^{n}{1\cdot p_i}\right)^2$$であるが、\(\displaystyle \sum_{i=1}^{n}{p_i} = 1\)であるから、これを変形すると$$\sum_{i=1}^{n}{{p_i}^2}\geq \frac{1}{n}$$となる。したがって、$$h\leq -\log_{2}{\frac{1}{n}} = \log_{2}{n}$$が成り立つ。等号が成り立つのは、\(\displaystyle p_1=p_2 = \cdots = p_n = \frac{1}{n}\)のときになる。

つまり、分布に偏りのないサイコロにおいて、エントロピーが最大になることがわかる。

情報量と情報量基準

これで情報量については大まかな理解が得られたので、次から情報量基準についてみていくことにする。

関連記事

2008年度前期東京工業大学数学問題3 コーシーシュワルツの不等式

関連リンク

情報量 - Wikipedia

コメント

タイトルとURLをコピーしました