概率分布

维基百科，自由的百科全书

[编辑] 随机变量

已知一概率空间 [ $S, P$ ] 和一 $X$ 函数，
$X:S\to R$

$e\to X(e) \in R$

如果 $X$ 指定给概率空间 $S$ 中每一个事件 $e$ 一个实数 $X (e)$ ，同时针对每一个实数 $r$ 都有一个事件集合 $A r$ 与其相对应，其中 $A r =$ { $e : X (e)$ ≤ $r$ }，那么 $X$ 被称作随机变量。随机变量一般用大写拉丁字母 ( 比如 $X, Y, Z$ ) 来表示，从上面的定义注意到，随机变量实质上是函数，不能把它的定义与变量的定义相混淆，另外概率函数 $P$ 并没有在考虑之中。

实数坐标轴上的随机变量示意图

例如，随机掷两个色子，整个事件空间可以由 36 个元素组成：

$S = \lbrace ( i, j ) | i=1, \ldots, 6,; j=1, \ldots,6 \rbrace$

这里可以构成多个随机变量，比如随机变量 $X$ ( 获得的两个色子的点数和 ) 或者随机变量 $Y$ ( 获得的两个色子的点数差)，随机变量 $X$ 可以有 11 个整数值，而随机变量 $Y$ 只有 6 个。

$x ( i, j ) := i+j , x=2,3,\ldots,12$

$Y ( i, j ) := \mid i-j \mid , y=0,1,2,3,4,5.$

又比如，在一次扔硬币事件中，如果把获得的国徽的次数作为随机变量 $X$ ，则 $X$ 可以取两个值，分别是 0 和 1。

如果随机变量 $X$ 的取值是有穷尽的或者是可数无穷尽的值

$X = \lbrace x_1, x_2, x_3, \ldots, \rbrace$ ,

则称 $X$ 为离散随机变量。如果 $X$ 由全部实数或者由一部分区间组成，

$X = \lbrace x | a\le x \le b \rbrace$ , $- \infty < a < b < \infty$

则称 $X$ 为连续随机变量，连续随机变量的值是不可数及无穷尽的。

[编辑] 定义

函数

$F(x) = P(X \le x)$ ( $x\in\R$ )

赋予每一个实数 $x$ 一个概率值，如果随机变量 $X$ 的取值范围不超过 $x$ ，即 $X\le x$ ，那么这个函数称作随机变量 $X$ 的分布函数。
例如上面的掷两次色子的试验，设随机变量 $X$ 为获得的两个色子的点数差，整个事件空间可以由 36 个元素组成，

数量	( i , j )∈ S	$x$	$P (X = x)$	$F (x)$
6	( 1,1 )，( 2,2 )，( 3,3 ) ( 4,4 )，( 5,5 )，( 6,6 )	0	6/36	6/36
10	( 1,2 )，( 2,3 ) ( 3,4 )，( 4,5 )，( 5,6 ) ( 2,1 )，( 3,2 )，( 4,3 ) ( 5,4 )，( 6,5 )	1	10/36	16/36
8	( 1,3 )，( 2,4 )，( 3,5 ) ( 4,6 )，( 3,1 )，( 4,2 ) ( 5,3 )，( 6,4 )	2	8/36	24/36
6	( 1,4 )，( 2,5 )，( 3,6 ) ( 4,1 )，( 5,2 )，( 6,3 )	3	6/36	30/36
4	( 1,5 )，( 2,6 ) ( 5,1 )，( 6,2 )	4	4/36	34/36
2	( 1,6 )，( 6,1 )	5	2/36	36/36

其分布函数是：

$F(x) = \begin{cases} 0 \longrightarrow x < 0 \\6/36 \longrightarrow 0 \le x < 1\\16/36 \longrightarrow 1 \le x < 2\\24/36 \longrightarrow 2 \le x < 3\\30/36 \longrightarrow 3 \le x < 4\\34/36 \longrightarrow 4 \le x < 5\\1 \longrightarrow 5 \le x \end{cases}$

上面的函数定义在离散分布情况下不太好理解，因为离散分布的随机变量不存在区间，实际上它在离散分布下并没有什么意义，而更适用于连续分布。从图像可看出，这个定义的目的，是要将整个实数区间映射到分布函数 $F (x)$ 上，而无论它是离散或者是连续分布。例如，16/36 不可以看作是 $x = 1$ 时的函数的概率，按照定义，应该是 $F ( x \le 1 ) = 16/36$ ，即获得的两个色子的点数差最大是 1 的概率是 16/36。

[编辑] 离散分布

上面所列举的例子都属于离散分布，离散分布函数 $F (x i)$ 赋予每一个随机变量 $X (X\le x_i)$ 一个概率值，如果整个事件空间中有 $n$ 个随机变量，那么离散分布函数有如下性质：

$F (x_i)=\sum_{j=1}^i P (x_j)$
$\sum_{k=1}^n P (x_i)=1$

[编辑] 二项分布

主條目：二项分布

二项分布是最重要的离散概率分布之一，由瑞士数学家伯努利 ( Bernoulli ) 发展，一般用二项分布来计算概率的前提是，每次抽出样品后再放回去，并且只能有两种试验结果，比如黑球或红球，正品或副品等。二项分布指出，随机一次试验出现的概率如果为 $p$ , 那么在 $n$ 次试验中出现 $k$ 次的概率为：

$f ( n, k, p )= {n\choose k}p^{k}(1-p)^{n-k}$

例如，在掷 3 次色子中，不出现 6 点的概率是： $f ( 3, 0, \frac{1}{6} )= {3\choose 0}\left(\frac{1}{6}\right)^{0}\left(\frac{5}{6}\right)^{3}= 0.579$
在连续两次的轮盘游戏中，至少出现一次红色的概率为： $f ( 2, 1, \frac{18}{37} )+f ( 2, 2, \frac{18}{37} )=0.736$

二项分布在

p = 0.5

时的对称性 ( 自变量为

k

)

二项分布在 $p = 0.5$ 时表现出图像的对称性，而在 $p$ 取其它值时是非对称的。另外二项分布的期望值 $\operatorname{E}(X)=np$ ，以及方差 $\operatorname{var}(X) = n\,p\,(1-p)\!$

[编辑] 二项分布和正态分布

见下面的正态分布

[编辑] 超几何分布

主條目：超几何分布

作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有 $N$ 个球，其中 $M$ 个黑球， $(N - M)$ 个红球，通过下面的超几何分布公式可以计算出，从容器中抽出的 $n$ 个球中 ( 抽出的球不放回去 ) 有 $k$ 个黑球的概率是多少：

$f(k,n;M;N):= \frac{\displaystyle{M \choose k}{N-M \choose n-k}}{\displaystyle{N \choose n}}$

例如，容器中一共 10 个球，其中 6 个黑色，4 个白色，一共抽 5 次 ( 抽出的球不放回去 ) ，在这 5 个球中有 3 个黑球的概率是： $f(k=3) = \frac{\displaystyle{6 \choose 3}{10-6 \choose 5-3}}{\displaystyle{10 \choose 5}} =0.476$

[编辑] 超几何分布和二项分布的关系

和二项分布不同的是，在超几何分布中，特别强调的是抽出的样品在下一次抽取前不再放回去，但是如果抽取的次数 $n$ 和总共样品数 $N$ 相比很小 ( 大约 $n / N < 0,05$ )，这时在计算上二项分布和超几何分布相互间则没有主要的区别，此时人们更愿意采用二项分布的方法，因为在数学计算上二项分布要简单一些。

[编辑] 泊松分布

主條目：泊松分布

泊松分布是二项分布的特殊形式。其强调如下的试验前提：一次抽样的概率值 $p$ 相对很小，而抽取次数 $n$ 值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出，如果随机一次试验出现的概率为 $p$ , 那么在 $n$ 次试验中出现 $k$ 次的概率按照泊松分布应该为：

$f ( n, k, p )= \frac{(n\cdot p)^k}{e^{n\cdot p}\cdot k!}$

其中数学常数 $e = 2.71828...$ ( 自然對數的底数 )
例如，某工厂在生产零件时，每 200 个成品中会有 1 个次品，那么在 100 个零件中最多出现 2 个次品的概率按照泊松分布应该是： $f ( 100, 0, \frac{1}{200} )+ f ( 100, 1, \frac{1}{200} )+ f ( 100, 2, \frac{1}{200} )=0.986$

[编辑] 泊松分布与二项分布的关系

泊松分布是二项分布的一种极限情况，事实上泊松分布的公式也是由二项分布公式导出的，在实践中如果遇到 $n$ 值很大而不适合用二项分布时，泊松分布则被用来代替二项分布使用。采用泊松分布的一个不太严格的规则是：

$n\ge 100$
$p\le 0.1$

[编辑] 连续分布

$X$ 是分布函数 $F$ 的连续随机变量，这个分布函数 $F$ 的一阶导数

$f(x) =\frac{\operatorname{d}F(x)}{\operatorname{d}x}$

被称之为 $X$ 的密度函数。
每个密度函数都有如下性质：

$\int_{-\infty}^\infty f(x) \, {\rm d}x = 1$
$\int_a^b f(x) \, {\rm d}x = \operatorname{P}(a\le X\le b) = F ( b )-F ( a )$

第一个性质表明，密度函数与 $x$ 轴形成的区域的面积等于 1 ，第二个性质表明，连续随机变量在区间 [ a b ] 的概率值等于密度函数在区间 [ a b ] 上的积分，也即是与 $X$ 轴在 [ a b ] 内形成的区域的面积。因为 $0 \le F( x ) \le 1$ ，且 $f (x)$ 是 $F x)$ 的导数，因此按照积分原理不难推出上面两个公式。

正态分布和指数分布都属于连续分布，其中正态分布无论在统计理论上以及实际应用中都具有极其重要的地位和意义，其它的连续分布还有 $t$ －分布， $F$ －分布以及 $x 2$ －分布。

[编辑] 正态分布

主條目：正态分布

连续随机变量的密度函数如果是如下形式，

$f(x) = \frac {1}{\sigma\sqrt{2\pi}}e^\left(-\frac {1}{2} \left(\frac{x-\mu}{\sigma}\right)^2\right)$

那么这个连续分布被称之为正态分布，或者高斯分布。其密度函数的曲线呈对称钟形，因此又被称之为钟形曲线，其中 $μ$ 是中间值， $σ$ 是标准差。正态分布是一种理想分布，许多典型的分布，比如成年人的身高，汽车轮胎的运转状态，人类的智商值 (IQ) ，都属于或者说至少接近正态分布。同样按照连续分布的定义，正态密度函数具有和普通密度函数类似的性质：

$\int_{-\infty}^\infty f(t) \, {\rm d}t = 1$
$F(x) =\frac {1}{\sigma\sqrt{2\pi}} \int_{-\infty}^x e^\left(-\frac {1}{2} \left(\frac{t-\mu}{\sigma}\right)^2\right) \, {\rm d}t$

如果给出一个正态分布的中间值 $μ$ 以及标准差 $σ$ ，可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的，没有计算机的辅助基本是不可能的，解决这一问题的方法是借助 $z$ -变换以及标准正态分布表格 ( $z$ -表格 ) 。

中间值 $μ = 0$ 以及标准差 $σ = 1$ 的正态分布被称之为标准正态分布，其分布函数是

z

-变换示意图

$\Phi(z)=\frac 1{\sqrt{2\pi}} \cdot \int_{-\infty}^z e^{-\frac 12 t^2} \mathrm{d}t$

将普通形式的正态分布变换到标准正态分布的方法是

$z=\frac{x-\mu}{\sigma}$

例如，已知一正态分布的 $μ = 5$ ， $σ = 3$ ，求区间概率值 $P (4<X\le 7) ?$ 计算过程如下，

$\frac{4-5}{3} < Z \le \frac{7-5}{3}$

$-1/3 < Z \le 2/3$

$P (4< X\le 7) =P (-1/3 < Z \le 2/3)= \Phi(2/3)-\Phi(-1/3)=0.7475-0.3694=0.3781$

其中 $Φ(z)$ 值通过查 $z$ -表格获得。

[编辑] 正态分布和二项分布

在离散分布中如果试验次数 $n$ 值非常大，而且单次试验的概率 $p$ 值又不是很小的情况下，正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是： $n\cdot p\cdot (1-p)\geq 9$ 。
从二项分布中获得 $μ$ 和 $σ$ 值的方法是

均值 $\mu=n\cdot p$
方差 $\sigma=\sqrt{n\cdot p \cdot (1-p) }$

如果 $σ > 3$ ，则必须采用下面的近似修正方法：

$P(x_1 \leq X \leq x_2) = \underbrace{\sum_{k=x_1}^{x_2} {n \choose k} \cdot p^k\cdot (q)^{n-k}}_{\mathrm{EF}} \approx \underbrace{\Phi\left(\frac{x_2+0,5-\mu}{\sigma}\right) -\Phi\left(\frac{x_1-0,5-\mu}{\sigma}\right)}_{\mathrm{ZF}}$

( 注： $q = 1 - p$ , EF：二项分布，ZF：正态分布)

上 ( 下 ) 临界值分别增加 ( 减少) 修正值 0.5 的目的是在 $σ$ 值很小时获得更精确的近似值，只有 $σ$ 很大时，修正值 0.5 可以不被考虑。

例如，随机试验为连续 64 次掷硬币，获得的国徽数位于 32 和 42 之间的概率是多少？用正态分布计算如下，

$\mu=n\cdot p = 64 \cdot 0.5=32$

$\sigma=\sqrt{n\cdot p \cdot (1-p) } =\sqrt{64\cdot 0.5 \cdot 0.5 } =4$

$n\cdot p\cdot q = 16 \geq 9$ ，符合近似规则，应用 $z$ -变换：

$P(32 \leq X \leq 42) \approx \Phi\left(\frac{42+0,5-32}{4}\right) -\Phi\left(\frac{31-0,5-32}{4}\right)$

$= \Phi\left(2.63\right) -\Phi\left(-0.13\right) = 0.0517 + 0.4957 =0.5474$

标准正态分布

N (0,1)

下的

z

-表格

在运用 $z$ - 表格时注意到利用密度函数的对称性来求出 $z$ 为负值时的区域面积。

[编辑] 外部链接

[编辑] 参考文献

（德文）彼得缺菲尔 ( Peter Zoefel )：《统计和经济学家》PEASON Studium 出版社 2003 年 ISBN 3-8273-7062-0
（德文）约瑟夫西拉 ( Josef Schira )：《统计理论与企业管理》PEASON Studium 出版社 2003 年 ISBN 3-8273-7041-8
（德文）汉斯－底特黑伯曼 ( Hans-Dieter Hippmann )：《统计学》SCHAEFFER POESCHEL 出版社 2003 年 ISBN 3-7910-2119-2

[编辑] 參見

来自“http://zh.wikipedia.org../../../%E6%A6%82/%E7%8E%87/%E5%88%86/%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83.html”

页面分类: 概率与统计

We provide Linux to the World