最頻値のLINEスタンプ作成ならスタンプファクトリー

最頻値

統計学における最頻値またはモード（mode）とは、データ群や確率分布で最も頻繁に出現する値である。日本工業規格では、「離散分布の場合は確率変数が，連続分布の場合は密度関数が，最大となる確率変数の値。分布が多峰性の場合は，それぞれの極大値を与える確率変数の値。」と定義している。平均や中央値と同様、最頻値は確率変数または何らかの単一の量についての母集団に関しての重要な情報を得る手段の一つである。最頻値は一般に平均や中央値とは異なり、特に歪度の大きい分布では大きく異なることがある。最も頻繁に出現する値は1つとは限らないため、最頻値は一意に定まらないことがある。特に一様分布ではどの値も同じ確率で出現するため、最頻値が定まらない。離散確率分布の最頻値は、確率質量関数が最大となる値である。言い換えれば、標本として最も頻繁に出現しやすい値である。連続確率分布の最頻値は、確率密度関数が最大となる値であり、大まかに言えばそのピークとなる値である。先述の通り、最頻値は一意に定まらないことがあり、確率質量関数や確率密度関数が複数の地点で最大となることもある。先述の定義から全域的最大値が最頻値だとわかる。若干困惑させるが、確率密度関数が複数の極値をもつとき、それぞれをその分布の最頻値とすることもある。そのような連続確率分布を「多峰性分布」、そうでないものを「単峰性分布」と呼ぶ。正規分布などの線対称な単峰性分布では、平均、中央値、最頻値が全て一致する。例えば、線対称な分布に従っていると判明していれば、標本群の平均を母集団の最頻値の推定値として使うことができる。標本データの最頻値は、その中で最も頻繁に出現する値を意味する。例えば [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] という標本群の最頻値は6である。[1, 1, 2, 4, 4] というデータでは最頻値は一意に定まらない。そのようなデータ群を「二峰性 (bimodal)」と呼び、最頻値が2つよりも多ければ「多峰性 (multimodal)」と呼ぶ。連続確率分布の標本は [0.935..., 1.211..., 2.430..., 3.668..., 3.874...] のようになり、正確に同じ値が出現することはないため、そのままの定義では最頻値を求められない。この場合一般に、値の範囲を等間隔の区間に分割し、ヒストグラムを作成することで区間ごとの頻度を求め、区間の中央の値でその区間を代表させる。したがって最頻値はヒストグラムのピークの値ということになる。標本数が少ない場合、区間の幅をどう選択するかで値が大きく変わってくる。一般に各区間の標本数をある程度以上確保するために区間数を少なくする。もう1つの手法としてカーネル密度推定があるが、これは本質的に標本値をぼやけさせて確率密度関数を連続的に推定するもので、それによって最頻値を提供できる。次のMATLABのコード例は、標本群から最頻値を計算するものである。このアルゴリズムでは、まず標本群を昇順にソートする必要がある。次いでソートされたリストの離散微分係数を計算し、その微分係数が正となるインデックス群 (indices) を求める（つまり、値が上がっている位置を求める）。次にそのインデックス列の離散微分係数を計算し、それが最大となっている位置を求める（つまり、同じ値が長く続いているほどインデックスの差が大きくなり、微分係数が大きくなる）。平均や中央値とは異なり、最頻値の概念は「名義尺度」（数値以外のデータからなる場合）においても意味がある。例えば日本で姓の標本を採取すると、「佐藤」という姓が他の姓より頻繁に出現するだろう。したがってこの場合の最頻値は「佐藤」となる。得票数が最も多い人が勝ちとなる投票方式では、最頻値が1つに定まることで勝者が決まり、多峰性の分布になると引き分けとなってしまう。中央値とは異なり、平均は何らかのベクトル空間の値をとる確率変数でも意味がある。このベクトル空間にはもちろん、実数（1次元のベクトル空間）や整数も含まれる。例えば、平面上に分布する点群において平均や最頻値は存在するが、中央値の概念は適用されない。中央値は、とりうる値に線型順序が存在する場合に意味を持つ。中央値の概念を高次元の空間に一般化したものとして、幾何学的中央値 () と中央点 () がある。一部の確率分布において、期待値は無限だったり未定義だったりすることもあるが、存在する場合は一意に定まる。（有限の）標本群では平均は常に定義される。中央値は、それより小さい標本の数とそれを越える標本の数が共に2分の1となる値である。一意とは限らないが、無限になったり未定義となることはない。標本群を昇順に並べたとき、その真ん中の値が中央値であり、標本数が偶数の場合は真ん中に最も近い2つの標本の平均を中央値とする。最頻値は前述の通り一意に定まるとは限らない。例えばカントール分布のような病的な () 分布では、最頻値は全く定義されない。標本数が有限であれば、最頻値は標本内のいずれかの値に定まる（1つとは限らない）。定義性と単純化のための一意性を仮定すると、次のような興味深い特性が存在する。歪度の高い分布としてよく知られている例として「富の分布」がある。富裕層の方が少なく、中でも大富豪はさらに少なく、大部分は貧困層に分類される。歪度を恣意的に変化させられる確率分布として、対数正規分布がよく知られている。正規分布の確率変数 "X" を "Y" = exp("X") となる確率変数 "Y" に変換することで得られる。この確率変数 "Y" の対数をとると正規分布となるため、このように呼ばれている。"X" の平均 μ を0としたとき、"Y" の中央値は 1 となり、"X" の標準偏差 σ には依存しない。これは "X" が線対称の分布であるためで、その中央値も標準偏差によらず常に 0 である。"X" から "Y" への変換は単調であり、"Y" の中央値は exp(0) = 1 となる。"X" の標準偏差 σ = 0.2 のとき、"Y"の分布の歪度はあまり高くない。小数点以下4桁まで求めると次のようになる（計算方法は対数正規分布を参照）。中央値は平均から最頻値までの3分の1ほどの位置となる。"X" の標準偏差がずっと大きく σ = 5 の場合、"Y" の分布の歪度は大きくなる。この場合、次のような値となる。この場合、ピアソンの経験則は成り立たない。

出典:wikipedia

最頻値

関連ワード