분산

위키백과 ― 우리 모두의 백과사전.

확률론과 통계학에서 어떤 확률변수의 분산(分散)은 그 확률변수가 기대값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기대값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다.

[편집] 정의

$\mu = \operatorname{E}(X)$ 가 확률변수 X의 기대값(혹은 평균)일 때, 분산 $\operatorname{var}(X)$ 는 다음과 같이 계산한다.

$\operatorname{var}(X) = \operatorname{E}((X - \mu)^2)$

즉, X의 평균에서 떨어진 거리의 제곱의 평균과 같다. 즉 편차의 제곱의 평균으로 표현할 수 있다. X의 분산은 보통 $\operatorname{var}(X)$ 또는 $\sigma _X ^2$ , 혹은 간단히 $σ 2$ 으로 표현한다.

위의 정의는 이산확률변수와 연속확률변수에 모두 적용될 수 있다.

[편집] 성질

어떤 실수의 제곱은 0 이상이므로 만약 분산이 존재한다면 그 값은 음수가 될 수 없다. 분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.

정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a²배가 된다. 식으로 쓰면 다음과 같다.

$\operatorname{var}(aX + b) = a^2 \operatorname{var}(X)$

평균값의 선형성으로부터 다음과 같은 식을 얻을 수 있다.

$\operatorname{var} (X) = \operatorname{E}( X ^2 - 2\,X\,\operatorname{E}(X) + ( \operatorname{E}(X)) ^2 ) = \operatorname{E}(X ^2) - 2(\operatorname{E}(X)) ^2 + ( \operatorname{E}(X)) ^2 = \operatorname{E}(X ^2) - ( \operatorname{E}(X)) ^2$