분산
위키백과 ― 우리 모두의 백과사전.
확률론과 통계학에서 어떤 확률변수의 분산(分散)은 그 확률변수가 기대값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기대값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다.
[편집] 정의
가 확률변수 X의 기대값(혹은 평균)일 때, 분산 는 다음과 같이 계산한다.
즉, X의 평균에서 떨어진 거리의 제곱의 평균과 같다. 즉 편차의 제곱의 평균으로 표현할 수 있다. X의 분산은 보통 또는 , 혹은 간단히 σ2으로 표현한다.
위의 정의는 이산확률변수와 연속확률변수에 모두 적용될 수 있다.
[편집] 성질
어떤 실수의 제곱은 0 이상이므로 만약 분산이 존재한다면 그 값은 음수가 될 수 없다. 분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.
정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.
평균값의 선형성으로부터 다음과 같은 식을 얻을 수 있다.
이 식은 실제로 분산을 구할 때 자주 사용된다.
분포를 가늠하는 여러가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있다. 더 일반적으로 쓰면 다음과 같다.
여기서 는 공분산을 나타내며, 두 변수가 독립일 경우 0이 된다.