brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Jul 10. 2020

가까이, 가까이, 더 가까이-분산

http://www.yes24.com/Product/Goods/71859635?scode=032&OzSrank=1


평균은 데이터 분석과 떼려야 뗄 수 없는 불가분의 관계다. 과연 내가 받는 연봉은 대한민국 평균 연봉과 비교했을 때 어느 정도 수준일까? 직장인이라면 누구나 궁금할 만한 질문이다. 대한민국 근로자의 평균 연봉이 4,000만 원이라면, 내 연봉은 평균 연봉과 같을 수도 적거나 많을 수도 있다. 이와 같이 기준 값에서 비교하려는 대상값(확률값)이 얼마나 떨어져 있는지를 나타내는 척도가 분산이다.

분산은 편차(확률값–기댓값)를 제곱해 제곱한 값의 총 합을 표본의 개수로 나눈 것이다. 분산이 0에 가깝다는 것은 표본(데이터)이 기댓값에 가깝게 분포함을 의미한다.

모집단과 표본을 설명하며 확률의 개념이 중요하게 작용한다고 했다. 모집단으로부터 표본을 선택하는 과정은 당연히 확률이다. 해당 표본에서 특정 데이터를 선택한다고 가정해 보자. 표본에서 어떤 데이터가 선택될지 미리 정해지지 않은 상황에서 보면 이 역시 확률이다. 선택한 데이터가 무엇이 될지 알 수 없을 때 우리는 그 값을 ‘x’라고 표현하고 통상 ‘변수’라고 지칭한다. 이것이 바로 데이터 분석에서는 확률변수random variable다. 그리고 이러한 확률변수들의 평균을 기댓값이라 한다. 앞에 나온 분산은 확률변수가 기댓값으로부터 얼마나 떨어져서나타나는지를 확인하는 척도다. 그리고 이러한 분산을 비교해 가설을 검정하는 분석을 분산분석이라 한다.


확률변수는 무작위로 선택된 값을 열거해 헤아릴 수 있음을 의미하는 이산확률변수와 임의의 값을 갖는 연속확률변수로 나눌 수 있다. 전자는 ‘이산가족’할 때 그 이산을 생각하면 쉽다. 이산확률변수는 변수 x1과 x2가 각각 1과 2의 값을 가진다고 할 때 변수 x1과 x2를 전혀 별개의 사건으로 본다. 이와 반대로 연속확률변수는 변수 x1과 x2 사이의 모든 실수가 변화하며 연속적으로 발생하는 같은 사건의 연장으로 본다.

값이 별개로 발생하는 이산확률변수를 예로 들면, 친구와의 통화횟수, 문자 횟수, 1가구당 거주하는 세대 수, 한 달간 일어난 교통사고수 등이다. 우리집에는 4명이 거주하고 옆집에는 2명이 거주하면 우리집의 거주 인원과 옆집의 거주 인원은 완전히 별개다.

연속확률변수의 예로는 대한민국 근로자의 평균 연봉, 특정 지역에 거주하는 사람들의 몸무게와 키 등이 있다. 몸무게가 작년에 70kg이었는데 올해 72kg이 됐다면 이는 두 값이 동 떨어져 나타난 것이 아닌 70kg에서 연속적으로 값이 상승해 72kg이 됐다는 의미다. 이러한 확률변수가 가질 수 있는 값(확률값)과 그 값이 나올 확률과의 관계(대응)를 확률분포라 한다. 확률분포로는 크게 이산확률분포와 연속확률분포가 있다.


그림에서 보듯이 세상의 모든 현상을 설명하는 정규분포 또한 연속확률분포의 하나다. 이로써 통계(데이터 분석을 포함한)는 확률과 정말 밀접한 관련이 있다는 것을 다시 한번 확인할 수 있다.

매거진의 이전글 근대 수리 통계학의 창시자-로널드 피셔와 표본
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari