Z분포, F분포, T분포 등 분포란 무엇인가?
분포에 대해 알기 전에 모집단과 표본집단의 개념에 대해 알아야 한다. 모집단이란 전체 인구를 말하는 것이고 표본집단은 조사를 위해 선정된 적은 수의 참여자, 즉 샘플을 말하는 것이다.
통계를 통해 알고 싶은 것은 표본집단 만으로 모집단의 특성을 알아내는 것이다.
예를 들어보자, 특정 키보드 프로토타입을 사용했을 때 문자를 보내는 속도가 일반적으로 빨라진다는 내용을 통계적으로 검정하고 싶다. 이를 위해 전체 모집단을 조사할 수는 없다. 70억 명을 모두 조사하는 것은 돈과 시간이 너무 많이 들기 때문이다. 그렇다면 어떻게 해야 할까?
표본집단을 대상으로 조사한 다음 모집단도 이런 특성을 보일 거야!라고 추론하는 방법이 최선이다. 즉, 통계적 추론 혹은 추론 통계를 하는 것이다.
그런데 여기서 한 가지 문제가 발생한다. 우리는 모집단을 대상으로 조사를 진행하지 않았기 때문에 모집단의 분포를 알 수가 없다. 아? 분포? 그렇다. 분포는 중요하다. 이제 분포를 알기 전에 필요한 사전 지식과 분포에 대해 알아보자.
분포란 일반적으로 '확률 변수'가 어떤 값을 가질 수 있을까? 에 대한 확률이다. '아 분포를 이야기하려니까 확류 변수를 이야기하네? 알아야 할게 이렇게 많아?' 많다. 슬프지만 원래 이런 것이다. 두려워하지 말고 사건과 표본 공간에 대해 알아보자. 사건이란 event이다. 주사위를 굴려보자. 몇 개의 사건이 생길 수 있는가? 총 6개의 사건이 생긴다. 1,2,3,4,5,6. 주사위가 정상적이라면 다른 사건은 생길 수 없다. 간혹 '1이 나오려다가 2가 나오는 것도 사건인가요?'라고 묻는데 아니다. 사건은 최종적이다. 1이 나오려다가 2가 나온다면 그 사건은 그냥 2이다.
사건을 '집합'으로 만들면 표본 공간이 된다. S = {1,2,3,4,5,6}. 이게 표본 공간이다.
여기서 확률 변수가 탄생한다. 특정 사건이 나올 확률. P(X)라고 정의한다. X는 사건이다. 위의 주사위의 경우를 살펴보자. P(X=1)이라면 1이라는 사건이 나올 확률변수이다. 얼마일까? 1/6이다. P(X=2)는? 1/6이다. 확률 변수는'함수'이다. 함수란 '특정값을 넣었을 때 특정 값이 나오는 것'
P(X=2)는 X에 2라는 사건을 넣었을 때 1/6이 나오는 함수가 된다.
결국 확률 변수란 '사건'과 '사건이 일어날 확률' 사이의 일대일 대응 함수이다.