스플릿 테스트 | SPLIT TEST | A/B TEST
A/B 테스트를 해보신 분들이라면 P-value와 신뢰구간에 대해서 적어도 한 번은 들어보셨을 것입니다.
오늘은 P-value와 신뢰구간이 무엇인지에 대해 설명하겠습니다.
유의 확률(p-value)은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률을 의미합니다.
P-value에서 P는 Probability, 즉 확률을 나타내며 0에서 1 사이의 값을 가지며, 일반적으로 P-value가 0.05 이하이면 통계적으로 유의하다고 판단합니다.
조금 더 쉽게 이야기하자면 유의 확률(P-vlaue)이란 결과 데이터가 우연히 발생했을 확률을 의미합니다.
즉, 실험군과 대조군의 차이가 우연히 나타났을 확률을 의미합니다.
P-value 값이 작을수록 결과 데이터가 우연히 발생했을 확률이 낮은 것이기 때문에 테스트 결과를 더 신뢰할 수 있습니다.
다만, P-value는 실험군과 대조군의 차이의 크기를 나타내지는 않습니다.
P-value가 낮다고 해서 실험군과 대조군의 차이가 큰 것은 아니며, P-value는 결과 데이터가 우연히 발생했을 확률만을 의미합니다.
신뢰구간(Confidence Interval)은 결과 값의 범위를 나타냅니다.
신뢰구간은 신뢰수준에 따라 달라지며, 일반적으로 95% 신뢰수준을 사용합니다.
95% 신뢰수준은 실험을 무수히 많이 반복할 경우 약 95% 확률로 신뢰구간이 실제 모수를 포함할 것임을 의미합니다.
A/B 테스트에서는 실험군과 대조군의 신뢰구간에 0이 포함되지 않는다면 실험군과 대조군의 차이가 통계적으로 유의미함을 의미하며, 신뢰구간의 크기로 실험군과 대조군의 차이의 크기를 가늠해 볼 수 있습니다.
앞서 P-value는 실험군과 대조군의 차이의 크기는 나타내지 않았던 반면, 신뢰구간은 실험군과 대조군의 차이의 크기(효과의 크기)까지 나타냅니다.
오늘은 A/B 테스트에서 가장 중요한 개념인 P-value와 신뢰구간에 대해 간단하게 설명했습니다.
P-value와 신뢰구간을 참고해서 실험 결과를 올바로 해석하실 수 있길 바랍니다.