平均情報量/エントロピー (entropy) |
「情報量」 のページで、
トランプのカードを 1枚 を引いたとき、 それが "ハート" であったという場合、
確率は 1/4 なので、 情報量は 2bit になるという説明をしました。
しかしこの話は、どのカードを引く確率も、すべて同じであることが前提です。
トランプのカードなら問題ありませんが、 次のような 「抽選」 だとどうでしょうか。
賞 | 本 数 | 確 率 | 情 報 量 (bit) |
---|---|---|---|
特等 | 1本 | 0.0001 | 13.2877 |
1等 | 10本 | 0.001 | 9.9658 |
2等 | 100本 | 0.01 | 6.6439 |
外れ | 9,889本 | 0.9889 | 0.0161 |
賞は 「特等」、 「1等」、 「2等」、 「外れ」 の4種類でトランプのスートの数と同じですが、
「外れ」 の確率が大きいので、 抽選に行ってもたいてい 「外れ」 です。
行く前から結果が分かっているようなものには、 情報量はほとんどありません。
逆に 「特等」 は文字通り万に一つ、 滅多にないことなので、
情報量もたくさんあります。
こういう場合、「平均情報量」 はどうなるのでしょうか。
ここでも理屈は後回しにして、まず計算してみます。
下にあるのは 「平均情報量電卓」 です。
テキストボックスの中に確率をすべて、 この場合 0.0001、0.001、0.01、0.9889 と
4行入力
し、 を押します。
答えは 0.09365782 bit になります。
トランプでは、スペードもハートもクラブもダイヤも、どのスートのカードを引く確率も 1/4、
情報量はすべて 2 bit です。
このときの平均情報量はもちろん 2 bit ですから、
等確率の場合に比べると抽選の平均情報量は 1.9 bit 以上も減って、ほとんど無くなってしまったわけです。
これは私たちの常識的な感覚からも納得のできる話です。
トランプのカードは何を引くか全く分からないので平均情報量も 2 bit ありますが、
抽選の場合はたいていが 「外れ」 です。
結果が初めから分かりきっているようなものには、情報の価値はほとんどありません。
平均情報量は次の式で計算します。
ここで、 は平均情報量、
は確率です。
確率の総和は 1 でないといけません
(上の電卓では、 確率の総和が 1 でないときは点滅表示になります)。
上の抽選の例の場合だと、 平均情報量は
となって、 これを計算すると H = 0.09365782 になります。
実際に計算するにも上の式を使いますが…、 見ただけでウンザリです。
計算には上の 「平均情報量電卓」 がおすすめです。
熱力学に分子の無秩序さを表す 「エントロピー(entropy)」
という言葉がありますが、エントロピーを表す式は上式とまったく同じ形をしていますので、
平均情報量を 「エントロピー」 とも言います。
平均情報量 (エントロピー) は、
情報の無秩序さ、あいまいさ、不確実さを表す尺度でもあります。
ある事柄の発生確率がすべて同じとき (たとえば、トランプのカードを引くとき) 、
すなわち何が起こるか予測がつかないときに最大で、
発生確率の偏りが大きければ大きいほどエントロピーは小さくなって、
ひとつの事柄の確率が 1 で他はすべて 0、すなわち最初から結果が分かりきっている場合には最小値、 0 になります。
関連項目: 情報量