You can make anything
by writing

C.S.Lewis

A/B 테스트 : P-value는 어떻게 결정될까?

스플릿 테스트 | SPLIT TEST | A/B TEST

by 해라 Mar 21. 2025

지난 글에서 P-value와 신뢰구간의 개념에 대해 설명했습니다.

오늘은 어떤 요소가 P-value를 결정하는지에 대해 설명하겠습니다.


이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.

A/B 테스트 : P-value와 신뢰구간 바로가기 >




1. 표본 크기 (Sample Size)

표본 크기가 클수록 P-value가 작아질 가능성이 높습니다.

즉, 표본 크기가 클수록 실험군과 대조군의 차이가 작더라도 통계적으로 유의미할 가능성이 높습니다.


예를 들어 동전을 10번 던졌을 때 7번 앞면이 나올 확률보다 1000번 던졌을 때 700번 앞면이 나올 확률이 더 낮습니다.

표본이 작을 때는 표본이 클 때보다 데이터 변동성이 크기 때문에 작은 차이는 유의미하지 않고, 표본 크기가 클수록 우연히 차이가 날 확률이 줄어들고 실제로 차이가 날 확률이 높아집니다.


2. 효과 크기 (Effect Size)

실험군과 대조군의 차이가 클수록 P-value가 작아집니다.

즉, 실험군과 대조군의 차이가 확실하다면 우연 차이가 날 확률이 줄어들고 실제로 차이가 날 확률이 높아집니다.


예를 들어서 기존 버전에서의 구매 전환율보다 신규 버전에서의 구매 전환율이 훨씬 높다면 P-value가 작아집니다.


3. 데이터 변동성 (Variance)

그룹 내 데이터의 변동성, 즉 표준편차가 클수록 P-value가 커질 가능성이 높습니다.

가설 검정 시, 검정 통계량은 일반적으로 아래와 같은 공식으로 계산됩니다.

(관측된 값−기대값) ÷ 표준 오차

변동성이 크다는 것은 표준 편차가 크다는 것을 의미하며, 표준 오차는 표준 편차 ÷ √표본 크기로 계산되기 때문에 표준 편차가 크면 표준 오차도 커질 가능성이 높습니다.

즉, 표준 오차가 커지면 위 검정 통계량 공식에 의해서 검정 통계량이 작아지고, 반대로 p-value는 커질 가능성이 높아지면서 통계적으로 유의미한 결과를 얻기 어려워집니다.


4. 검정 통계량 (Test Statistic)

앞서 데이터 변동성에서 언급했던 것처럼 검정 통계량이 작을수록 p-value는 커지고, 반대로 검정 통계량이 커질수록 p-value는 작아집니다.


검정 통계량의 일반적인 공식은 앞서 이야기한 것과 같습니다.

(관측된 값−기대값) ÷ 표준 오차

여기서 관측된 값은 실험을 통해 얻은 데이터를 의미하며, 기대값은 귀무가설이 참일 때 예상되는 값을 의미하고, 표준 오차는 표본 평균 자체가 얼마나 변동하는지에 대한 값을 의미합니다.


검정 통계량은 다양한 종류가 있으며, 대표적으로 z-검정 통계량(Z-score), t-검정 통계량(t-score), 카이제곱 검정 통계량(X²-score), F-검정 통계량(F-score) 등이 있습니다.


5. 가설 검정 유형 (One-tailed vs. Two-tailed test)

가설 검정 방법은 양측 검정(two-tailed test)과 단측 검정(one-tailed test)이 있습니다.

양측 검정은 차이를 검증하는 것으로 양쪽 극단을 고려합니다.

예를 들면 대조군과 실험군의 구매 전환율이 서로 다른지를 검정하는 것을 의미합니다.

양측 검정은 단측 검정과 달리 검정 방향이 양쪽이기 때문에 p-value가 더 커질 수 있습니다.


단측 검정은 특정 방향만 보게 됩니다.

예를 들어 대조군 대비 실험군의 구매 전환율이 더 높은 지를 검정하는 것을 의미합니다.

이 때문에 단측 검정의 경우 p-value가 작을 가능성이 크며, 무분별하게 사용하면 Type I 오류인 잘못된 기각이 발생할 수 있습니다.

잘못된 기각이란 실제로는 차이가 없는데 차이가 있다고 착각하게 되는 것을 의미합니다.


정리하면, 단측 검정은 목적값이 "더 큰지" 또는 "더 작은지" 알고 싶을 때 사용하며, p-value 크기는 일반적으로 더 작습니다.

양측 검정은 목적값이 "다른지" 알고 싶을 때 사용하며, p-value 크기는 일반적으로 더 큽니다.




오늘은 A/B 테스트에서 가장 중요한 개념인 P-value를 결정하는 요소에 대해 간단하게 설명했습니다.

P-value 해석 시, P-value를 결정하는 요소를 참고하면 통계적 유의성을 확보하지 못한 이유도 가늠할 수 있으니 활용해 보시기 바랍니다.

매거진의 이전글 A/B 테스트 : P-value와 신뢰구간

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari