情報量のLINEスタンプ作成ならスタンプファクトリー

情報量

情報量（じょうほうりょう）やエントロピー（）は、情報理論の概念で、あるできごと（事象）が起きた際、それがどれほど起こりにくいかを表す尺度である。ありふれたできごと（たとえば「風の音」）が起こったことを知ってもそれはたいした「情報」にはならないが、逆に珍しいできごと（たとえば「曲の演奏」）が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとが本質的にどの程度の情報を持つかの尺度であるとみなすこともできる。なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ（確率）だけによって決まる数学的な量でしかなく、個人・社会における有用性とは無関係である。たとえば「自分が宝くじに当たった」と「見知らぬAさんが宝くじに当たった」は、前者の方が有用な情報に見えるが、両者の情報量は全く同じである（宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるため）。それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値も情報量と呼ぶ。両者を区別する場合には、前者を選択情報量（自己エントロピーとも）、後者を平均情報量（エントロピーとも）と呼ぶ。事象formula_1が起こる確率をformula_2とするとき、事象 formula_1 が起こったことを知らされたとき受け取る（選択）情報量formula_4 をと定義する。起こりにくい事象（＝生起確率が低い事象）の情報量ほど、値が大きい。上式中の対数 (formula_6) の底として何を選んでも、情報量の値が定数倍変わるだけなので、本質的な差はないものの、底としては2を選ぶことが多い。底が2の場合、formula_7の確率で起こる事象の情報量はformula_8である。整数formula_9に対し、formula_9の対数formula_11はformula_12進法でのformula_9の桁数にほぼ等しい値を表す。したがって、確率formula_14で起こる事象の情報量は、ほぼformula_9の桁数になる。AとBが独立な事象のとき、「AもBも起こる」という事象の情報量は、Aの情報量とBの情報量の和である。情報量には加法性がある。例えば、52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義からlog52 であると分かる。ここで、「取り出したカードのスートはハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量はlog4、後者はlog13 である。この両者の和はlog4 + log13 = log(4×13) = log52 となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは直感的要請に合致する。formula_16を、台が有限集合である確率空間とする。formula_16上の確率分布 "P"が与えられたとき、各事象formula_18の選択情報量formula_19の期待値を"P"のエントロピーと呼ぶ（平均情報量、シャノン情報量、情報論のエントロピーとも）。ただし、ここでP(A)=0のときは、formula_21とみなす。これはformula_22であることによる。また有限集合U上の値を取る確率変数"X"が確率分布"P"に従う場合には、"X"のエントロピーをH(X)=H(P)によって定める。すなわち、エントロピーは常に非負の値（または無限大）を取る。値"x"、"y"がそれぞれ確率変数"X"、"Y"に従う場合には、組formula_24も確率変数とみなせる。この確率変数をformula_25と書くことにすると、確率変数formula_25のエントロピーはになる。これを結合エントロピーと呼ぶ。formula_28が互いに独立な確率変数である場合には、formula_29はformula_30に一致する。すなわち、全体の情報量formula_29は、それぞれの確率変数の情報量の和である。しかし、"X"と"Y"が互いに独立ではない場合は、formula_29とformula_30は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、で表す。相互情報量は常に非負の値になる。事象Bが生じているという条件下における事象Aの条件付き情報量をformula_35によって定める。確率変数"X"が与えられたとき、事象「formula_36」の条件付き情報量formula_37の"x"に関する平均値を条件付きエントロピーといい、で表す。さらに確率変数"Y"が与えられたとき、事象「formula_39」が生じているという条件下における事象「formula_36」の条件付きエントロピーformula_41の"y"に関する平均値もやはり条件付きエントロピーと呼ぶ。あるコインを投げたときに表が出る確率を formula_44、裏が出る確率を formula_45 とする。このコインを投げたときに得られる平均情報量（エントロピー）は、である。この関数formula_47をエントロピー関数と呼ぶ。図を見ると分かるように、formula_48 と formula_49 では formula_50 はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。formula_50 が最大になるのは formula_52 のときであり、一般にすべての事象（できごと）が等確率になるときにエントロピーが最大になる。実数値を取る確率変数Xの確率密度関数をp(x)とするとき、Xのエントロピーをによって定義する。Xが有限集合に値を取る確率変数である場合には、Xのシャノン情報量formula_54も定義できる。Xが"n"通りの値を取るとき、formula_54とformula_56は、を満たす。ただし、ここでformula_58は"n"元集合上の一様分布とする（すなわちformula_59）。formula_16を、台が有限集合である確率空間とする。"P"をformula_16上の確率分布とし、formula_62を非負の実数とする。formula_63のとき、"P"のdegeeformula_62のRenyiエントロピーをによって定義する。また、formula_66の場合には、Renyiエントロピーをによって定義する。単にRenyiエントロピーと言った場合はformula_68を意味することも多い。さらに、確率変数"X"が確率分布"P"に従うとき、formula_69をformula_70によって定義する。Renyiエントロピーは以下の性質を満たす：「エントロピー」の概念は1865年にルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年にはレオ・シラードが、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット（1 シャノン）と呼ぶ量が統計力学で "k" ln 2 に対応するという関係を導いていた。現在の情報理論におけるエントロピーの直接の導入は1948年のクロード・シャノンによるもので、その著書『通信の数学的理論』でエントロピーの概念を情報理論に応用した。シャノン自身は熱統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達したが、その名称を考えていたとき同僚フォン・ノイマンが、熱統計力学のエントロピーに似ていることから示唆したもので、フォン・ノイマンは「統計エントロピーが何なのかを理解してる人は少ないから、議論になったら有利であろう」と語ったとされる。しかしシャノンはフォン・ノイマンの影響を否定している。なお、シャノン以前にもラルフ・ハートレーが1928年に、集合"A"に対してformula_84という量を考察している（“formula_85”は"A"の元数）。formula_84は"A"上の一様分布のエントロピーに一致する。現在では、formula_84を"A"のハートレー・エントロピーと呼ぶ。情報量は本来無次元の量である。しかし、対数の底として何を用いたかによって値が異なるので，単位を付けて区別している。前述のように、情報量は確率の逆数の桁数の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット(bit)、ナット(nat)、ディット(dit)である。また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997（これは国際規格 ISO/IEC 2382-16:1996と一致している）は、これらの量を表す単位を別に定めている（も参照）。単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノン、ラルフ・ハートレーにちなむ。

出典:wikipedia

情報量

関連ワード