A/B 테스트는 A와 B만 나누는 게 다가 아니다 (2)
“이번 며칠 동안 모은 000명~0,000명의 트래픽/고객에 대해서만 유효한 게 아니라, 앞으로도 & 해당 유형의 모든 고객에게 A안과 B안 중 어느 게 ‘확실하게’ 효과가 좋은가? 그리고 이 결과는 우연이 아닌 게 맞나? 이 결과는 정말로 A와 B의 차이 덕분에 생긴 게 맞는가?”
점 추정과 구간 추정 | 우리는 보통 콕 짚어 특정 숫자(Ex: 전환율 45.249575223...%)가 나올 거라고 추측하는 게 아니라 얼추 40~50% 정도가 될 거라는 식으로 어떤 '범위'로 추정한다. 이처럼 정확히 한 점을 콕 짚어 추측하는 걸 점 추정, 그리고 특정 범위/구간을 기준으로 추측하는 걸 구간 추정이라고 한다.
표준 오차 | 동일하게 설계한 실험을 동일한 기준으로 선발한 각기 다른 표본 집단을 대상으로 수행하는 경우, 실험의 설계는 동일했더라도 결과는 매번 다를 수 있다. '상세 페이지에 방문한 3등급 고객'을 대상으로 프로모션을 노출하는 실험이라고 가정해보자. '상세 페이지에 방문한 3등급 고객'이라는 유형은 동일해도, 오늘 방문한 3등급 고객 100명이 어제 방문한 3등급 고객 100명과 동일 인물이 아니니까. 그래서 각 표본 집단마다 결과 값이 정확히 똑같을 순 없다. 이렇게 생긴 차이를 표준 오차라고 이해하고 넘어가자
신뢰 구간 | 그래서 결국 우리가 생각하는 예상 결과치와, 생길 법한 차이인 표준 오차를 고려하면 '신뢰 구간'이란 게 나온다. 전환율이 40% 일 거 같은데 오차가 3% 정도 되니까 얼추 37~43% 사이일 거라는 구간. 결국 우리가 실제 실험을 진행하는 표본을 통해 추측하고 있는 전체 집단이 속할 거라고 생각되는 구간. 여기에 앞서 설명한 '신뢰 수준'의 개념을 더하면, "내가 이렇게 설계한 실험을 100번을 진행하면, 실험으로 얻는 결과 중에 95번은 37~43% 안에 있고, 나머지 5번은 아닐 수 있다"는 뜻이다.