brunch

매거진 데이터를 부탁해

라이킷 1 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 별더하기 Apr 08. 2020

그때는 맞고,지금은 틀리다 #3

비교하고 진실을 밝혀라, T-검정

http://www.yes24.com/Product/Goods/71859635?scode=032&OzSrank=1

데이터를 부탁해

근대 수리 통계학의 아버지 칼 피어슨, 수리 통계학의 창시자 로널드 피셔 등인물로 읽는 데이터 분석과 데이터 과학 통계우리는 데이터 홍수의 시대에 살고 있지만, 데이터 분석은 여전히 전문

www.yes24.com

무엇을 분석할지 대상을 정하고 대상에서 증명하려는 부분에 대한 가설을 세우고 참과 거짓을 구분할 기준까지 정했다면 마지막으로 분석 내용이 정해진 기준에 부합하는지를 판단할 차례다.

데이터 분석은 기초 통계를 기반으로 출발한다. 분석하려는 대상집단의 최댓값과 최솟값은 얼마인지, 평균은 어떻게 되는지, 표준편차가 얼마인지를 파악하고 분석을 진행하는 것이 순서다. 반드시 이과정을 따라야 하는 것은 아니지만 평균의 중요성을 생각한다면 분명 필요한 과정이다.

대한민국 근로자의 연봉은 남자가 여자보다 대체로 높다. 이 말은사실일까? 이것을 증명하기 위한 귀무가설은 ‘남자는 여자보다 연봉이 낮다’다. 귀무가설이 참인지 거짓인지를 판단하면 이 말은 쉽게 증명된다. 이를 위해 표본으로 선정된 두 집단(남자, 여자)의 평균을 구하고 비교하면 어느 쪽이 높은지, 즉 차이가 있는지 확인할 수 있다. 이렇게 두 집단 간 평균에 차이가 있는지를 비교해 검증하는 것을 T-검정(test)이라고 한다. 설정된 기준인 유의수준과 유의확률 내에서 분석한 내용이 포함돼 나타나는지를 확인하는 방법이다.

예를 들어, 기준을 유의수준 5%(일반적으로 5%로 설정한다. 이것은 반대로 신뢰 수준이 95%라는 뜻이다)라고 하였을 때 두 집단 간의 표본 평균이 원하는 귀무가설에 부합하고, 두 집단의 평균이 표본오차 범위 내에서 발생할 확률인 유의확률(p–value)이 5% 이하로 나오면 귀무가설은 거짓이되고(‘남자가 여자보다 연봉이 높다’를 채택) 5%보다 높으면 귀무가설은 참이돼 결과적으로 ‘남자가 여자보다 연봉이 낮다’는 결론을 도출할 수 있다.

T-검정의 도식

이 과정에서 이런 의구심이 들 수 있다. ‘표본을 무작위로 했지만 운이 좋게 연봉이 높은 남녀만 뽑힌 거 아니야?’ 이러한 의구심을 해소하는 데 T-검정이 필요하다. T-검정은 두 집단에서 선택된 표본의 평균이 증명하고자 하는 수준에서 몇 번이나 차이가 나는지 확률적으로 확인하기 위한 과정이다(여기서 또 한번 확률과 평균은 늘 함께한다는 사실이 확인된다. 잊지 말길). 쉽게 설명하고자 했지만 여전히 어렵다. T-검정은 표본을 무작위로 선정했을 때 차이가 날 확률이 몇 %인지 검증하는 작업 정도로 이해하고 넘어가자.

여기서 한 가지 살펴볼 부분이 있다. 우선 검정 작업은 확률분포를 확인하는 과정이다. 앞서 정규분포 이야기를 하며 세상의 모든 현상은 정규분포를 따른다고 했다. 정규분포를 따른다는 개념은 앞서 보았듯이 표본의 크기가 클수록 명확해지며, 정규분포를 따르지 않는다면 데이터가 부족한 것이다. 이 말은 데이터의 양이 많으면 많을수록 데이터 평균값의 차이가 정규분포를 따른다는 의미다.

그렇다면 모든 분석 대상을 정규분포로 만들려면 데이터의 크기가 커야만 된다는 말인데, 앞서 남녀의 연봉을 검증하고자 할 때 그 대상을 국민 전체로 한다면 데이터가 충분히 크다고 할 수 있지만, 특정 기업 또는 부서의 연봉 수준을 검증한다면 데이터의 크기가 충분히 크다할 수 있을까? 이것은 데이터가 적어서 정규분포를 따르지 않는 가설을 검증해야 하는 상황이 있다는 뜻이다. 그래서 T-분포를 확인하는 T-검정이 진행된다. 또한, 데이터가 많다 또는 적다의 기준을 어디에 두어야 할지도 의문이 들 수 있다.

1,000건? 또는 10,000건? 아니면 더 많게 100,000건? 또한 매번 정규분포를 고려하며 분석을 진행해야 할까? 데이터가 100건이면 T-검정이고, 10,000건이면 Z-검정을 해야 하는 것일까? 결론적으로 두 검정 방법 모두 평균의 차이를 확인하고 확률범위(p-value, 유의수준)를 구하는 점은 같다. 따라서 두 집단 간 평균의 차이는 T-검정을 염두해 두고 진행하는 것이 일반적이다. 분석하고자 하는 대상의 데이터가 많아서 정규분포를 따른다고 T-검정이 불가능한 것은 아니기 때문이다.

이러한 흐름으로 볼 때 T-검정(T-분포)을 발견한 사람은 아마도 데이터를 충분히 확보할 수 없는, 즉 표본이 충분히 확보되지 않는 상황이 아니었을까.

keyword