brunch

You can make anything
by writing

C.S.Lewis

by 해라 Nov 08. 2024

A/B 테스트의 P-value와 신뢰구간

스플릿 테스트 | SPLIT TEST | A/B TEST

A/B 테스트를 해보신 분들이라면 P-value와 신뢰구간에 대해서 적어도 한 번은 들어보셨을 것입니다.

오늘은 P-value와 신뢰구간이 무엇인지에 대해 설명하겠습니다.




1. 유의확률 (P-value)

유의 확률(p-value)은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률을 의미합니다.

P-value에서 P는 Probability, 즉 확률을 나타내며 0에서 1 사이의 값을 가지며, 일반적으로 P-value가 0.05 이하이면 통계적으로 유의하다고 판단합니다.


조금 더 쉽게 이야기하자면 유의 확률(P-vlaue)이란 결과 데이터가 우연히 발생했을 확률을 의미합니다.

즉, 실험군과 대조군의 차이가 우연히 나타났을 확률을 의미합니다.


P-value 값이 작을수록 결과 데이터가 우연히 발생했을 확률이 낮은 것이기 때문에 테스트 결과를 더 신뢰할 수 있습니다.


다만, P-value는 실험군과 대조군의 차이의 크기를 나타내지는 않습니다.

P-value가 낮다고 해서 실험군과 대조군의 차이가 큰 것은 아니며, P-value는 결과 데이터가 우연히 발생했을 확률만을 의미합니다.


2. 신뢰구간 (Confidence Interval)

신뢰구간(Confidence Interval)은 결과 값의 범위를 나타냅니다.

신뢰구간은 신뢰수준에 따라 달라지며, 일반적으로 95% 신뢰수준을 사용합니다.


95% 신뢰수준은 실험을 무수히 많이 반복할 경우 약 95% 확률로 신뢰구간이 실제 모수를 포함할 것임을 의미합니다.


A/B 테스트에서는 실험군과 대조군의 신뢰구간에 0이 포함되지 않는다면 실험군과 대조군의 차이가 통계적으로 유의미함을 의미하며, 신뢰구간의 크기로 실험군과 대조군의 차이의 크기를 가늠해 볼 수 있습니다.


앞서 P-value는  실험군과 대조군의 차이의 크기는 나타내지 않았던 반면, 신뢰구간은 실험군과 대조군의 차이의 크기(효과의 크기)까지 나타냅니다.




오늘은 A/B 테스트에서 가장 중요한 개념인 P-value와 신뢰구간에 대해 간단하게 설명했습니다.

P-value와 신뢰구간을 참고해서 실험 결과를 올바로 해석하실 수 있길 바랍니다.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari