LINEスタンプ制作代行サービス・LINEスタンプの作り方!

お電話でのお問い合わせ:03-6869-8600

stampfactory大百科事典

確率変数

確率変数(かくりつへんすう、)とは、確率論並びに統計学において、ランダムな実験に拠り得られ得る全ての結果を指す変数である。数学で言う変数は関数により一義的に決まるのに対し、確率変数は確率に従って定義域内の様々な値を取ることが出来る。日本工業規格では、確率変数(かくりつへんすう:random variable)をと規定している。確率変数は、1.これから試行する実験の結果、又は 2.既に試行した実験結果が未だ不確かである場合(実験結果が出揃っていない場合や測定結果が不確実である場合など)の実験結果として取り得る値である。また概念的に、「客観的に」ランダムな過程(サイコロ振りなど)の結果や、定量的な情報が不完全であることに基づく「主観的な」ランダム性を表すことも出来る。確率変数が取り得る値に拠って確率が意味する処は、確率論自身の一部ではなく、確率の解釈の結果である厳然とした独立変数である。しかし解釈の如何に因らず数学を用いることが出来る。確率値を表現する数学の関数を確率分布と呼ぶ。確率変数は離散数(有限又は数え上げられる値の一覧で、確率分布の特性である確率質量関数により与えられる。離散確率分布参照。)であっても良いし、連続数(定義域内のあらゆる数値で、確率分布の特性である確率密度関数により与えられる。連続確率分布参照。)であっても良い。更に両者の混合タイプも有り得る。確率変数は確率分布に従ってランダムに選ばれた結果の値と言える。確率変数の数学的な取り扱いは確率論を参照のこと。本項では、確率変数を標本空間に定義された可測関数から得られた数値として考える。確率変数formula_1は、その取り得る値formula_2から取り出した部分formula_3に由来する可測関数である。通常、formula_4である。そうでない場合は確率要素として考察する(概念の拡張参照)。formula_5とformula_6の両方が可測空間である為に公理的定義が必要とされる(測度論的定義参照)。実数関数として、formula_7はしばしば実験対象の量を記述する。例えて言えば、或る回数コイントスをした場合に表が出た回数や、様々な人々の身長などである。formula_7の像(或いは範囲)が有限若しくは可算集合である時、確率変数は離散確率変数と呼ばれ、その分布はformula_7の像の値其々に関連付けられた確率として確率質量関数で記述できる。像が不可算無限集合であるならばformula_7は連続確率変数と呼ばれる。また特別な場合として、絶対連続の場合にはその分布は区間内の確率として確率密度関数で記述される。注意すべき点は、其々独立した「点」で絶対連続な確率変数の値=0であるという事である。全ての連続確率変数が絶対連続だというわけではない。がその例である。そのような確率変数は確率密度関数または確率質量関数で記述できない。あらゆる確率変数は累積分布関数で記述できる。累積分布関数とは、確率変数が或る値以下である確率を示すものである。例えば、ランダムに選ばれた人についてその身長を確率変数として得る場合を考える。数学的には、確率変数は 対象となる人→その身長 という関数を意味する。確率変数と関連するのは確率分布であり、妥当に有り得る範囲の確率(身長180cm以上190cm以下である確率や 150cm未満又は200cm超である確率)を計算できるようになる。もう一つの確率変数の例は、或る人に何人の子供が居るかというものである。これは非負の整数値を取る離散的確率変数である。この場合、各整数値での確率を計算することが出来る(確率質量関数(PMF))。また、無限個の仮説を想定することも可能である。例えば、偶数人の子供が居るか、といったものである。何方の場合に於いても、確率値はPMFの要素の和を無限に取っていくことで求めることが出来る。子供が0人の可能性 + 子供が2人の可能性 + 子供が4人の可能性 + … という要領である。このような例では標本空間はしばしば有限に制限される。離散値を無限に計算していくのが数学的に困難だからである。しかしアウトカムの標本空間内で2つの確率変数が同時に測定される場合、即ち或る人について身長と子供の数とを同時に調査する場合などは、両変数に相関関係が有るのか否かを知るのは容易である。統計学に於ける基本として、"確率変数"がとる値は実数であり、従って期待値や分散その他の値を計算することが出来る。しかし、ブール変数、、複素数ベクトル、、ランダム行列、、樹形図、、ランダムな形、ランダムな多様体、、確率過程等もまた考えられる。確率要素という用語はこれら全ての概念を指し示す。もう1つの拡張は確率過程、即ち時間や空間などで添字付けられた添字付き確率変数である。この様な、より一般化された概念は計算機科学や自然言語処理といった非数的要素を扱う分野で特に有用である。これらの確率要素は実数値の確率変数(主に乱数ベクトル)として取り扱えることが多い。下記に実例を上げる。要素の数値化は、非数的な独立した確率要素を扱う際の必須操作ではない。コイントスを実施した時の実験結果は標本空間formula_11で記述される。表が出る方に掛けるとしてここから実測確率変数formula_12を導くと、コインの表(head)と裏(tail)が出る確率が等しい時、確率質量関数formula_14は次式の通りである。確率変数は、サイコロ振りで起こりえる事象を考察する時も同様に利用できる。2つのサイコロを振って出た目の和を確率変数"X"と定義する。この場合のもっとも明瞭な表現は、"2つのサイコロを振って出た目"という標本空間の上に数を表現するために、{1, 2, 3, 4, 5, 6} から、数"n" と "n"の対の集合を取ることである。そして、注目の確率変数"X"は、この対から和への写像であるような関数として定義される。この時、確率質量関数 ƒ は、下記の式で与えられる。連続値の例として、水平方向に回るルーレットを挙げることが出来る。ここで「確率変数=ルーレットの向き」である。この"向き"は東西南北の他にもあらゆる方向を指すので、その標本空間の表現には実数が相応しい。これは真北方向と成す角度で表現できる。確率変数X=角度とすると、その値は区間[0, 360)(0度以上360度未満)の実数であり、全ての値が取る確率が等しいと期待される。区間内のあらゆる実数の期待値は0であるが、ある範囲内の角度を成す確率は正の値である。例えば、[0, 180](0度以上180度以下)となる確率はである。確率質量関数の代わりに、Xの確率"密度"を考えると、1度の確率密度はになる。[0, 360)の範囲の確率はずつの確率を足していく事で計算できる。一般に、連続確率変数の値は取り得る範囲の値を積分することで計算できる。混合タイプの確率変数としては例えば、コインを投げて表が出た時のみルーレットを回すという事を考えることが出来る。コインが裏であれば X = −1、表であれば X = ルーレットの角度 とすると、この確率変数はの確率で -1、その他の数[0, 360)である確率は上記の例の半分である。最も形式的に言うと、確率関数の公理的定義は測度論を内包する。連続確率変数は、確率関数と共に数の集合として定義される。集合が充分に制約されていない場合には種々の問題(バナッハ=タルスキーのパラドックス)が起こるので、σ-集合代数を導入(して集合を制約)する必要がある。通常、ボレルσ-集合代数を用いる事で、どんな集合に対しても数の連続区間或いは有限又は可算無限の和集合の数、及び/又はそのような区間の共通部分を用いることが出来る様になる。測度論的定義は下記の通りである。formula_18を確率空間、formula_19を可測空間とする。するとformula_19の値を持つ確率変数は関数formula_1(formula_22が可測)である。後者は、全ての部分集合formula_23に於いて、formula_24である時の原像formula_25 を意味している。この定義は、可測であると仮定される原像に着目することで観察空間内の全ての部分集合formula_26を可測にする。formula_6が位相空間である時、最も一般的なσ-集合代数formula_28はボレルσ-集合代数formula_29である。これは、formula_6の全ての開集合のコレクションから生成されたσ-集合代数である。この時、formula_19の値を持つ確率変数をformula_6-valued random variableと呼ぶ。更に、空間formula_6が数直線formula_34である時、その様な実数確率変数を単に確率変数という。ここでは観測値を実数とする。formula_18が確率空間である。下記の場合、実測値空間として、関数formula_36を実数確率変数とする。この定義は上記の特別な場合である。集合formula_38が実数空間内にボレル完全加法族を成し、それが集合の可測性を示す十分条件だからである。これでformula_39を用いて生成する集合の可測性が証明される。確率変数formula_40が確率空間formula_18内に定義されたとすると、「formula_7の値が2に等しい確率はどれほどか?」等と問うことが出来る。これは事象formula_43の確率と同じであり、しばしば短くformula_44やformula_45と記述される。実数確率変数formula_7が示す範囲の確率を全て記録すると、formula_7の確率分布が得られる。確率分布はformula_7の定義に使われた特定の確率空間を「忘れる」ので、formula_7の様々な値の確率を記録するのみである。この様な確率分布は常に累積分布関数で捉えることが出来る。加えて確率密度関数formula_51を使える場合も多い。測度論的には確率変数formula_7は、formula_5上でのformula_54の測定からformula_34上でのformula_51の測定に「押し進める」物、と言える。根底にある確率空間formula_5は確率変数の存在を保証するツールであり、しばしば変数を構成し、同一確率空間内の2つ以上の変数の同時分布に於ける相関・依存や独立性の基礎となる。実際は、空間formula_5全体に1つの変数を置き、数直線formula_34全体で1つの変数とする。つまり、その変数が確率変数に代わって確率分布する。確率変数の確率分布は、多くの場合実用的な意味を持つ少数のパラメータで規定される。例として、「平均値」は確率変数の期待値(E["X"])の数学的概念として捉えられ、一次モーメントと呼ばれる。一般に、E["f"("X")] は "f"(E["X"]) と等しくない。「平均値」が判ると次に"X"の値が平均値からどれほど離れているのかが次の疑問となる。その問いに答えるのが確率変数の分散及び標準偏差である。E["X"]は要素数が無限個の当該母集団から得られた平均値として直感的に了解できる。数学的には、与えられた確率変数Xが所属する母集団に関する(一般化された)として知られ、確率変数"X"の分布の性質を示す期待値E["f"("X")]の関数のコレクション{"f"}である。モーメントは確率変数が実数関数である場合(複素数等についても)に定義できる。 確率変数自身が連続であるならば、変数のモーメント自身は確率変数の恒等関数formula_60と等価である。然し、非実数の確率変数の場合にも、モーメントをその変数の実数関数として得ることが出来る。例えば、名義尺度変数"X"として「赤」、「青」、「緑」がある場合、実数関数formula_61を考えることが出来る。こうしてアイバーソンの記法を用いることで、"X"が「緑」の時は1、それ以外は0と記述できるので、期待値及び他のモーメントを定義できる。実数のボレル可測関数formula_62を実数値確率変数"X"に適用すると、新たな確率変数"Y"を定義することが出来る。formula_63の累積分布関数は、である。関数"g"に逆関数"g"が定義可能であり、かつそれが増加関数か又は減少関数である場合には、上記の関係は以下のように展開できる。さらに、同じく"g"の可逆性に加えて微分可能性も仮定すると、両辺を"y"で微分することにより、確率密度関数の関係を下記の様に記述できる。"g"の逆関数が存在しない場合でも、其々の"y"が高々可算個の根を持つ場合(即ち、"y = g(x)"である"x"の数が有限又は可算無限の場合)には、上記の確率密度関数の関係は次のように一般化できる。 この式は"g"が増加関数でなくとも成立する。確率に対する公理的アプローチとしての測度論に於いて、空間formula_67上の確率変数formula_68及びボレル可測関数formula_62を取る。可測関数を合成したものもまた可測である(然し、formula_70がルベーグ可測の場合はその限りではない)ため、formula_71も又空間formula_72上の確率変数である。formula_63の分布を知るために、確率空間formula_74からformula_75への移行と同じ手順を利用できる。"X"を実数の連続確率分布とした時、"Y" = "X"とすると、"y" < 0 の時は formula_77 であるので、"y" ≥ 0 の時は formula_80 であるので、formula_83は、累積分布関数がであるような確率変数とする。ただしformula_85 は固定されたパラメーターである。 確率変数"Y"をformula_86 とすると、最後の表現はformula_7の累積分布関数で計算できる。すなわちformula_93が標準正規分布に従う確率変数であるとすると、その密度は下記の通りである。確率変数formula_95を考えると、上記の式を変数変換して密度を下記のように表すことが出来る。この場合、formula_97の値は2つのformula_93(正の値と負の値)に対応するので、変換は単調写像ではない。しかし、関数が対称であるので、両半分を其々変形することが出来る。即ち、である。この逆変換は、であり、両辺を微分するとである。従って、これは自由度1のχ分布である。確率変数が同値と見なされるには「等しい」「ほとんど確実に等しい」「分布が等しい」といった、いくつかの異なる意味がある。強さの順に並べると、これらの正確な定義は以下の通り。標本空間が実数直線の部分集合の場合、確率変数 X と Y の分布が等しいとは( formula_103 と表記する)下記のように同じ分布関数を持つことである。2つの確率変数は同じ積率母関数を持つ時に同じ分布になる。この事実は、例えば独立同一分布の確率変数による複数の異なった関数が同じ分布になるかどうかを調べるための便利な方法を提供する。しかしながら、積率母関数が存在するのは、ラプラス変換が定義される分布関数に対してのみである。2つの確率変数 X と Y が「ほとんど確実に等しい」とは、その2つが異なる確率が0であることと同値である。これは、以下で定義される距離が0であることも同値である。確率論におけるすべての現実的な目的に関して、この同値性の概念は実際に等しい場合と同等の強さをもつ。最後に、2つの確率変数 X と Y が等しいとは、それらが定義される可測空間上の関数として等しいことを指す。数理統計学の重要なテーマは、例えば大数の法則や中心極限定理のように、ある確率変数の特定の列の収束結果を得る事である。確率変数列("X")を確率変数"X"に収束させる方法は様々な物が有る。詳細は確率変数の収束で説明する。

出典:wikipedia

LINEスタンプ制作に興味がある場合は、
下記よりスタンプファクトリーのホームページをご覧ください。