brunch

You can make anything
by writing

C.S.Lewis

by 이기대 May 11. 2022

의사결정에 확신을 더하는 T-Test

수식보다 실무 사례로

T-Test는 두 집단의 평균을 비교합니다.


방식은 크게 3가지입니다.  

집단의 데이터(Vector)와 특정 값(Scalar)을 비교하는 One-Sample T-Test

집단의 데이터(Vector)와 다른 집단의 데이터(Vector)를 비교하는 Two-Sample T-Test

서로 다른 시점에서 포착된 동일 집단의 데이터(Vector)를 비교하는 Paired-Sample T-Test

위 방식을 통해 검정하고자 하는 대립 가설은 '두 집단의 평균은 다르다'입니다.


집단의 데이터(Vector)와 특정 값(Scalar)을 비교하는 One-Sample T-Test

One-Sample T-Test의 경우 주로 이상 탐지나 공정 분류의 검사 기준으로 잘 활용됩니다. 웹사이트의 유저별 평균 시간당 전송량 50 Mbyte라고 해보겠습니다. 그런데 어느 날 특정 유저가 1시간 동안 200 Mbyte의 데이터를 전송했을 때, 이를 공격 징후로 볼 수 있는가?를 검사합니다.


서버에서는 집단 데이터(Vector)가 실시간으로 누적되고, 유저별 시간당 전송량의 평균치를 측정하고 있습니다. 여기서 One-Sample T-Test는 특정 시간대에 이 평균치와 '유의미한 차이'가 발생한 특정 유저의 전송량(Scalar)을 감지하고 유저를 색출해냅니다.


집단의 데이터(Vector)와 다른 집단의 데이터(Vector)를 비교하는 Two-Sample T-Test

Two-Sample T-Test의 경우 비즈니스나 시장분석을 위해 소비자 타깃 범주를 나누는데 활용할 수 있습니다. 광고 기획사에서 500ml 생수 광고를 의뢰받아 광고의 주요 소비자 타깃을 정의하고자 합니다. 생수는 살면서 누구나 소비하는 필수재지만 500ml 생수를 '특히' 선호하는 소비자 범주를 분류해내고 싶습니다. 적합한 나이대 및 성별의 모델을 선정하기 위해서입니다.


여러 가지 예산과 실무적 이해관계를 따졌을 때, 20대 여성 A와 30대 남성 B가 최종 광고 모델 후보로 올라왔습니다. 둘 중 통계적으로 시장 점유율 확보를 위해 유리한 모델이 있는가를 확인하기 위해 Two-Sample T-Test를 사용할 수 있고, 500ml 생수에 대한 20대 여성의 월평균 지출액과 30대 남성의 월평균 지출액을 비교하여 지출액이 '유의미하게' 높은 집단을 파악합니다.


만약, 검정을 통해 두 집단의 지출액에 '유의미한 차이'가 없다는 것이 확인된다면, 두 모델(20대 여성 A, 30대 남성 B)의 평판과 선호도, 비용 등을 더 강하게 고려해서 최종 모델을 선정하게 됩니다.


서로 다른 시점에서 포착된 동일 집단의 데이터(Vector)를 비교하는 Paired-Sample T-Test

Paired-Sample T-Test의 경우 특정 프로모션이 실제로 효과가 있었는가? 에 대한 판단 기준으로 사용할 수 있습니다. E회사에서 리텐션을 높이기 위해 기존 고객을 대상으로 "1달 이내 재구매 시 별다방 쿠폰 발급" 프로모션을 진행했습니다. 해당 프로모션 전/후로 유저별 월평균 접속 횟수를 비교하는 데에 Paired-Sample T-Test를 사용할 수 있습니다.


이때 검정에는 두 개의 Vector(프로모션 전의 접속 수, 프로모션 후의 접속 수)가 활용되지만 Vector를 생산해낸 소스는 동일한 집단입니다. 즉, '기존 고객'이라는 하나의 집단에서 발생한 두 개의 Vector를 비교 분석하게 됩니다.


만약 프로모션 전 월평균 접속 횟수가 5.8회, 프로모션 후 월평균 접속 횟수가 6.1회라고 한다면 프로모션 전/후의 유의미한 차이가 있다고 볼 수 있을까요? 단측 검정(귀무가설 : 전과 후가 동일하다 vs 대립 가설 : 전보다 후가 크다.)을 통해 이를 확인하고 해당 프로모션을 추가로 실시할지 판단할 수 있습니다.      


작가의 이전글 백테스팅 퀀트 서비스 개발기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari