戻る 平均情報量/エントロピー (entropy)


情報量」 のページで、 トランプのカードを 1枚 を引いたとき、 それが "ハート" であったという場合、 確率は 1/4 なので、 情報量は 2bit になるという説明をしました。
しかしこの話は、どのカードを引く確率も、すべて同じであることが前提です。

トランプのカードなら問題ありませんが、 次のような 「抽選」 だとどうでしょうか。

  賞    本 数   確 率  情 報 量 (bit) 
特等1本0.000113.2877
1等10本0.0019.9658
2等100本0.016.6439
外れ9,889本0.98890.0161

賞は 「特等」、 「1等」、 「2等」、 「外れ」 の4種類でトランプのスートの数と同じですが、 「外れ」 の確率が大きいので、 抽選に行ってもたいてい 「外れ」 です。 行く前から結果が分かっているようなものには、 情報量はほとんどありません。
逆に 「特等」 は文字通り万に一つ、 滅多にないことなので、 情報量もたくさんあります




こういう場合、「平均情報量」 はどうなるのでしょうか。

ここでも理屈は後回しにして、まず計算してみます。

下にあるのは 「平均情報量電卓」 です。
テキストボックスの中に確率をすべて、 この場合 0.0001、0.001、0.01、0.9889 と 4行入力 し、 を押します。
答えは 0.09365782 bit になります。




平均情報量/エントロピー電卓

トランプでは、スペードもハートもクラブもダイヤも、どのスートのカードを引く確率も 1/4、 情報量はすべて 2 bit です。
このときの平均情報量はもちろん 2 bit ですから、 等確率の場合に比べると抽選の平均情報量は 1.9 bit 以上も減って、ほとんど無くなってしまったわけです。

これは私たちの常識的な感覚からも納得のできる話です。
トランプのカードは何を引くか全く分からないので平均情報量も 2 bit ありますが、 抽選の場合はたいていが 「外れ」 です。
結果が初めから分かりきっているようなものには、情報の価値はほとんどありません。




平均情報量は次の式で計算します。

平均情報量の式

ここで、 は平均情報量、 は確率です。
確率の総和は 1 でないといけません (上の電卓では、 確率の総和が 1 でないときは点滅表示になります)

上の抽選の例の場合だと、 平均情報量は

平均情報量の式

となって、 これを計算すると H = 0.09365782 になります。
実際に計算するにも上の式を使いますが…、 見ただけでウンザリです。

計算には上の 「平均情報量電卓」 がおすすめです。




熱力学に分子の無秩序さを表す 「エントロピー(entropy)」 という言葉がありますが、エントロピーを表す式は上式とまったく同じ形をしていますので、 平均情報量を 「エントロピー」 とも言います。

平均情報量 (エントロピー) は、 情報の無秩序さ、あいまいさ、不確実さを表す尺度でもあります。
ある事柄の発生確率がすべて同じとき (たとえば、トランプのカードを引くとき) 、 すなわち何が起こるか予測がつかないときに最大で、 発生確率の偏りが大きければ大きいほどエントロピーは小さくなって、 ひとつの事柄の確率が 1 で他はすべて 0、すなわち最初から結果が分かりきっている場合には最小値、 0 になります。



関連項目:  情報量


情報処理概論 に戻る   目次 に戻る  戻る  

*1 情報量は情報量電卓 で確認してください。
*2 .0001、.001、.01、.9889 あるいは、 1/10000、10/10000、100/10000、9889/10000 という入力でも OK です。

Java applet 圧縮アーカイブファイル    自由利用マーク
2007.08.10  address