모집단에서 특정 집단을 샘플링해서 가설을 검증하는 것
A-1. 귀무 가설
대립 가설과 상반되는 가설
효과가 없다, 차이가 없다, 동일하다
기본적으로 귀무 가설을 전제로 함.
매우 확실한 근거가 있지 않으면 대립가설을 수용하지 않음
A-2 대립 가설
연구 및 관의 대상이 되는 가설
효과가 있다, 차이가 있다, 동일하지 않다.
귀무가설이 맞다고 가정할 때 관찰된 결과가 일어날 확률
예를 들어, P-value가 0.03이라면, 귀무가설이 참일 때 이와 같은 데이터가 나올 확률이 3%
P Value가 특정 근거치보다 적을 때 내가 세운 가설이 통계적으로 의미가 있을 수 있음
P value를 보는 이유
AB 테스트는 모집단에서 표본을 추출하기 때문에, 표본에서 가설이 효과가 있다고 나와도 이 대표성을 확신할 수가 없기 때문에 P value를 통해 통계적 엄밀성을 확인하는 것
B-1. Test 검정
연속형 분포를 가지는 값에 대해나 A,B 집단 비교에 Test 검정을 활용함
B-2. Chi - square test (카이 제곱 검정)
성공과 실패 등 독립적인 결과만 존재하는 경우, T Test가 아닌, 카이 제곱 검정을 사용 해야함
ex. 클릭의 유무 / 구매 유무
특정한 통계량에 대한 추정치의 범위 = 실제 모수가 이 범위내에 있을 확률
신뢰 구간이 95%라면, 100번의 실험 중 95번은 실제 값이 이 구간 안에 있을 것
두 그룹의 신뢰 구간이 겹치지 않을 경우: 해당 차이는 통계적으로 유의미할 가능성이 높음
두 그룹의 신뢰 구간이 겹칠 경우: 해당 차이가 통계적으로 유의미하지 않을 가능성이 큼.
관찰된 차이가 단순한 우연일 수 있다는 의미
주장한 가설이 정말로 효과가 있는지를 판단하는 과정
D-1. 검정 종류
양측 검정 : 관심 있는 값이 기대값보다 크거나 작을 때 모두 귀무가설을 기각하는 검정.
단측 검정 : 관심 있는 값이 기대값보다 한쪽 방향으로 극단적일 때만 귀무가설을 기각하는 검정.
D-2. 기각역(=유의 수준)
오류를 허용할 확률 / 귀무가설이 참인데도 불구하고 이를 잘못 기각할 확률 (= 가설이 효과가 없음에도 효과가 있다고 채택할 확률)
- 보통 0.05(5%)나 0.01(1%)로 설정
- 유의 수준을 0.05로 설정했다면, 귀무가설을 잘못 기각할 가능성 5%를 받아들이겠다.
- 만약 실험 결과에서 P-값이 0.03이 나왔다면, 이는 유의수준 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설이 유의미하다고 결론을 내립니다.
기각역 = 1- 신뢰 수준
양측 검정에서 신뢰수준이 95%일 때:
- 기각역은 양쪽 끝 각각 2.5%에 해당하는 구간
- 만약 검정 통계량이 기각역(상위 2.5% 또는 하위 2.5%)에 속하면, 귀무가설을 기각
단측 검정에서 신뢰수준이 95%일 때:
- 기각역은 한쪽 끝의 5%에 해당하는 구간
- 검정 통계량이 기각역에 속하면 귀무가설을 기각합니다.
일반적으로 양측 검정이 좀 더 엄격하게 검정하게 됨
1종 오류
- 귀무가설이 사실인데 인데 기각할 오류
2종 오류
- 귀무가설이 거짓인데 기각하지 않을 오류
mu0 : 실험하고자 하는 지표의 과거의 일반적인 평균 데이터
mu1 : mu0에서 얼마나 상승을 기대하는지에 대한 값
alpha유의수준 : 귀무 가설을 기각할 수 있는지 없는 지를 판단하는 기준
1-beta(검정력) : 귀무가설을 올바르게 기각할 확률
작은 샘플들로 유의미한 지표가 나왔을 때는 1종 오류를 발생시킬 가능성이 있음
두 분포가 겹치는 범위가 많고 크기가 작다면 상대적으로 낮은 검정력을 갖고 있다는 것을 의미함
분포가 겹칠수록 검정력이 떨어지는 이유
귀무가설과 대립가설 하에서의 데이터 분포가 유사하다는 뜻
이 경우, 귀무가설을 기각해야 할 데이터를 귀무가설의 영역에 포함시킬 가능성(제2종 오류, β)이 높아짐 즉, 실제로는 대립가설이 참임에도 불구하고, 데이터가 불확실하게 판단될 수 있습니다.
AB테스트에서는 1-B 인 값인 Power를 기준으로 관습적으로 0.8을 주로 사용함
귀무가설이 틀렸을 때 이를 정말로 틀렸다고 할 확률을 80%로 높고 실험을 진행하겠다는 의미
sample size를 구한다는 것은 effect size로 표시된 평균의 차이가 X로 주어졌을 때, N을 조정하면서 alpha로 표시된 구역의 넓이가 0.05이면서, Beta로 표시된 구역의 넓이가 0.2인 값을 찾는 과정
실험 기간이 다 차지 않았음에도 목표 값이 도달한 것을 보고, 성급히 해당 가설을 채택하는 문제
예방 방법
- 정의한 샘플이 모일때까지 기다림
- 미리 검정력과 유의수준을 설정하고 결과 확인할 때 엄격히 이를 준수
- 본페로니 교정 방법 실행 : 원래의 유의 수준을 가설의 검정 수 로 나누어 설정된 유의 수준을 계산
실험의 결과를 왜곡시키는 인자를 제거하는 것
예방법
- 랜덤화 그룹 분배 : 무작위로 할당해, Confounding Factor가 균형있게 유지되도록 하는 것
- 층화 랜덤화 그룹 분배 : 왜곡을 줄 수 있는 그룹을 따로 빼서 램덤화된 그룹에 적절히 섞는 방법
초두효과 : 사용자들이 기존 서비스 방식과 기능에 익숙해져, 변화를 꺼리는 현상
- 예방방법 : 좀 더 시간을 두고 테스트의 결과를 확인함
신기 효과 : 유용성과 별개로 새로워서 많이 사용하는 효과
예방방법 : 기존 사용자와 신규 사용자를 A/B 집단 모두에 골고루 섞음
- 초두 효과 : 실험군의 기존사용자와 신규 사용자 사이에 새로운 기능에 대해서 동일한 효과를 보이는가?
- 신기 효과 : 신규 사용자의 실험과 대조군 사이에 다른 결과를 보이는가?