가뿐하게 통계를 바라볼 수 있는 그 날을 위하여
모집단과 표본은 무엇일까?
어제 통계에서 모집단과 표본분포에 대해 다루었습니다. 그러니까 모집단은 연구하려는 그 대상 자체를 의미하고 표본은그 모집단의 대표주자들을 의미하죠. 아주 간단한 연구를 한다면 사실 모집단과 표본만 있어도 충분히 통계를 돌려볼 수 있습니다. 연구의 가치가 있는 것이죠. 하지만 때에 따라 복잡한 연구가 될 수가 있죠. 엄청나게 많은 표본, 그러니까 연구 대상의 대표값들이 있을수도 있고 값들이 여러모로 서로 복잡하게 얽여있으면 이 분포를 보는게 불가능에 가까울 수가 있습니다.
그렇다면 표본 분포는?
그럴 경우 엄청나게 많은 표본들 중 표본 통계량을 추리하여 구해야 되겠죠. 그러니까 통계적으로 추리를 해서 나온 표본들로 확률 분포를 얻어야 할 때 우린 표집분포라는 단어를 사용합니다. 아래 식이 다소 복잡한데요 딱 보시면 계단 모양의 그래프가 보이시죠? 네, 바로 표본분포입니다. 그런데 뭐가 엄청 많죠? 표본들이 여러개 보이네요. 분명 엄청 복잡한 데이터들을 연구하는 것 같습니다. 이렇게 복잡다난한 데이터를 갖고 설계를 할땐 우린 나름의 추론 과정을 거칩니다. 추론을 하여 확률 분포를 얻는 과정을 바로 '표집 분포'라고 하죠
추론을 통해 얻은 확률 분포, 그것이 바로 표집분포
단어들이 엄청 헷갈리는데요, 표.집.분.포
표집 분포는 통계에서 아주아주아주 자주 쓰이는데요, 통계적인 가설을 검증할때 대부분 쓰이는 방법이 바로 이 표집분포입니다. 수없이 많은 표본을 무한 반복 추출해서 추출된 무한개의 표본들의 평균값을 통해 구한 표본을 의미합니다.
아래 그래프처럼 예쁘게 그래프가 나왔죠? 곡선으로. 바로 정규 분포를 따른다는 의미입니다.
사실 용어가 엄청 낯선데 먼저 이렇게 용어를 쫘악 정리하고 차례차례 논문 하나하나 대입해서 실험을 어떻게 설계했는지 보여드리도록 하겠습니다!
여기서부터는 기호의 향연인데요, 으악 하고 놀래실 수 있겠지만 먼저 보여드리도록 하겠습니다.
기호들만 포면 정말 토나오는데요.. 사실 처음부터 이런 기호를 알 필요는 없을 것 같아요. 일단 저같은 경우 용어를 익숙하게 만드는 것부터 시작하였습니다. 가끔 이 분야 공부를 해보면 그냥 연구대상이라 하면 될 것을 모집단이라고 부르고 대표주자라고 하면 될껄 표본이라고 하는 걸 보면 약간 위화감<?> 내지 거부감,,...까지 드는데요 뭐 자주보면 이제 그 용어가 옆집 순이네 아줌마 부르는 것처럼 익숙해져요. 일단 용어가 익숙해지면 그때부터 통계에서 다루는 내용들이 좀 볼만 하더라구요..
모집단, 표본, 표본분포, 표집분포는 워낙 자주 사용하는 용어들이기에 이렇게 정리를 해 보았습니다. :)
그럼, 우리 모두 통계를 일상 생활에서 가뿐하게 사용하는 그 날을 바라면서 내용을 줄이겠습니다!
* 흩어지는 순간을 기억하고자 기록합니다.
* book_jo@naver.com