カルバック・ライブラー情報量のLINEスタンプ作成ならスタンプファクトリー

カルバック・ライブラー情報量

カルバック・ライブラー情報量（カルバック・ライブラーじょうほうりょう、英: "Kullback–Leibler divergence"、カルバック・ライブラー・ダイバージェンス）とは、確率論と情報理論における2つの確率分布の差異を計る尺度である。情報ダイバージェンス（Information divergence）、情報利得（Information gain）、相対エントロピー（Relative entropy）とも呼ばれる。2つの確率分布の差異を表す事から、カルバック・ライブラー距離と呼ばれる事もあるが、距離の公理を満たさないので、数学的な意味での距離ではない。応用上は、「真の」確率分布 "P" とそれ以外の任意の確率分布 "Q" に対するカルバック・ライブラー情報量が計算される事が多い。例えば"P" はデータ、観測値、正確に計算で求められた確率分布などを表し、"Q" は理論値、モデル値、"P" の予測値などを表す。この概念は1951年、ソロモン・カルバックとリチャード・ライブラーが2つの分布の間の directed divergence として用いたのが最初であり、ベクトル解析におけるダイバージェンスとは異なる概念である。カルバック・ライブラー情報量は離散分布のみならず連続分布に対しても定義されており、連続分布に対するカルバック・ライブラー情報量は変数変換について不変である。従って、情報理論の他の量（自己情報量やエントロピー）よりも基本的であるとも言える。というのも、それらは離散的でない確率については未定義だったり、変数変換に対して不変ではなかったりするからである。"P" 、 "Q" を離散確率分布とするとき、"P" の "Q" に対するカルバック・ライブラー情報量は以下のように定義される。ここで"P(i)" 、"Q(i)" はそれぞれ確率分布"P" 、 "Q" に従って選ばれた値が "i" の時の確率。一方"P" 、 "Q" が連続確率分布の場合は以下のように定義される。ここで、"p" 、 "q" はそれぞれ "P" 、 "Q" の確率密度関数を表す。より一般に、 "P" 、"Q"が可測集合X上の確率測度で、"P" 、"Q" がなんらかの測度μに対して絶対連続な場合には、と定義できる。ここでformula_4、formula_5 はラドン・ニコディム導関数。これらの式に出てくる対数の底は、情報の単位をビットとするときは 2 とし、ナットを単位とするときは "e" を底とする。カルバック・ライブラー情報量に関わる方程式の多くは対数の底が何であろうと無関係である。"X" を確率変数とし、各"x" に対し"X" が"x" である確率formula_6が"Q(x)" であったとする（ベイズ確率でいう事前分布。）今"X" に関する新たなデータ"I" を知ったとし、その結果"X" の従う(条件付き)確率formula_7が"P(x)" になったとする（ベイズ確率でいう事後分布。）このとき、"I" は"X" に関しどのくらいの情報を提供したといえるであろうか。情報量が事象の不確かさを図る尺度であった事を思い出されたい。"I" を知る前の"X"の不確かさ（＝自己情報量）は formula_8であるが、"I" を知る事でそれは formula_9に減る。したがって"I" は"X"に関してだけの自己情報量を得た事になる。"x" は"X" に従って変わるので、この値の（事後確率分布による）平均値をとると、となる。これはカルバック・ライブラー情報量と一致する。すなわち、カルバック・ライブラー情報量は、"X" に関してデータ"I" から得られる情報量の平均値を表している事になる。以上の理由により、カルバック・ライブラー情報量は情報利得 ("Information gain" )とも呼ばれる。情報量が"H" である確率変数"X" は平均ビット数が（ほぼ）"H" であるビット列に符号化できる(ハフマン符号)が、平均ビット数が"H" 未満であるようには符号化できない(情報源符号化定理)事が知られている。つまり、確率変数"X" を符号化しようと考えた場合、"H" がビット数の最小値である。今確率変数"X" が本当は分布"P" に従っているのに、誤って分布"Q" に従っていると判断してしまった場合、本来の最小値よりも多くのビット数を必要としてしまう。カルバック・ライブラー情報量は、このような誤りを犯してしまった場合に余分にかかってしまうビット数の平均値を表す。カルバック・ライブラー情報量は常に負でない値となる。これはギブスの不等式として知られており、"D"("P"||"Q") がゼロとなるのは "P" = "Q" であるときだけである。従って、エントロピー "H(P)" はクロスエントロピー "H(P,Q)" の下限値となる。このクロスエントロピーは "P" ではなく "Q" に基づく符号を使ったときに予測されるビット数を表している。従って、KLダイバージェンスは、"X" から "x" という値を特定する情報を得るために、"P" という真の分布ではなく "Q" という確率分布に対応した符号を使ったときに余分にかかると予想されるビット数を表しているのである。カルバック・ライブラー情報量を確率分布空間における距離と呼ぶ場合もあるが、カルバック・ライブラー情報量には対称性がないため、距離と呼ぶのは正しくない。一般にさらに言えば、"D"("P"||"Q") は三角不等式を満足しない。情報理論の他の様々な量は、カルバック・ライブラー情報量の特殊なケースの応用として解釈できる。ここでformula_15はクロネッカーのデルタ。ここで"N" は確率変数"X" の値域の元の数で、"P_U(X)" は"X" の値域上の一様分布。条件付きエントロピーの場合は以下のようになる：

出典:wikipedia

カルバック・ライブラー情報量

関連ワード