二項分布

出典: フリー百科事典『ウィキペディア（Wikipedia）』

**二項分布**
確率質量関数グラフなし
分布関数グラフなし
母数	$n \geq 0$ 試行回数(整数) $0 \leq p \leq 1$ 成功確率(実数)
台	$k \in \{0,\dots,n\}\!$
確率質量関数	${n\choose k} p^k (1-p)^{n-k} \!$
分布関数	$I_{1-p}(n-\lfloor k\rfloor, 1+\lfloor k\rfloor) \!$
期待値	$n\,p\!$
中央値
最頻値	$\lfloor (n+1)\,p\rfloor\!$
分散	$n\,p\,(1-p)\!$
歪度	$\frac{1-2\,p}{\sqrt{n\,p\,(1-p)}}\!$
尖度	$\frac{1-6\,p\,(1-p)}{n\,p\,(1-p)}\!$
エントロピー
モーメント母関数	$(1-p + p\,e^t)^n \!$
特性関数	$(1-p + p\,e^{i\,t})^n \!$

数学では、二項分布は、結果が成功か失敗のいずれかである n 回の独立な試行を行ったときの成功数で表される離散確率分布である。各試行における成功確率 p は一定であり、このような試行を、ベルヌーイ試行と呼ぶ。二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。

二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その中から無作為に500人を抽出する。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいか。抽出された集団の中に含まれる罹患者数を確率変数 X で表すとき、X は n = 500、p = 0.05 の二項分布に従う。ここで、求める確率は Pr[X ≥ 30] である。

一般に、確率変数 X がパラメータ n、p の二項分布に従うとき、X ~ B(n, p) と記述する。ちょうど k 回の成功を得る確率は、

$P[X=k]={n\choose k}p^k(1-p)^{n-k}\quad\mbox{for}\ k=0,1,2,\dots,n$

ここで、

${n\choose k}=\frac{n!}{k!(n-k)!}$

は n 個から k 個を選ぶ組合せの数であり、二項係数と呼ばれている（C(n, k) とも表記する）。二項分布という名前は、この二項係数に由来している。この公式は、次のように解釈することができる。p^k は k 回成功する確率を表し、(1 − p)^{n − k} は n − k 回失敗する確率を表している。ただし、k 回の成功は n 回の試行の中のどこかで発生したものであるから、C(n, k) 通りの発生順序がある。

もし X ~ B(n, p) ならば、X の期待値は

E [X] = n p

であり、分散は

var(X) = n p (1 - p)

X の最頻値は、(n+1)p 以下の最大の整数によって与えられる。ただし、m = (n+1)p において m が整数である場合、m − 1 と m の双方が最頻値となる。

X ~ B(n, p) と Y ~ B(m, p) が互いに独立であるとき、X + Y は次の二項分布に従う。

B (n + m, p)

n = 1 の場合を特に、ベルヌーイ分布と呼ぶ。

二項分布の近似として、2種類の分布がある。

np および n(1 − p) が5よりも大きい場合、B(n, p) に対する良好な近似として正規分布がある（適切な連続修正がなされている場合）。

N (n p, n p (1 - p))

正規分布による近似を用いることにより、計算の労力を大きく削減することができる。正規分布への近似は、アブラーム・ド・モアブルが1733年に著書 The Doctrine of Chances の中で紹介したのが最初である。今日では、互いに独立で同一の分布に従う n 個の確率変数の和の分布は B(n, p) になることが、中心極限定理によって確認されている。警告：適切な連続修正がなされていない場合、不正確な結果になる可能性がある。

例えば、多数の住民の中から n 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。n 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 p とほぼ等しい平均を持ち、標準偏差 σ = (p(1 − p)/n)^1/2 である正規分布に近似されるだろう。未知の変数 p は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 n は多い方が好ましい。