통계학 가설 검증의 기본 개념

따라하며 배우는 데이터 과학 (권재명님/제이펍) 발췌 정리

by 레오군

Sep 23. 2019

통계학을 통해 확인하고 싶은 것

효과가 있는가? – 가설검증(hypothesis testing)

효과의 크기는 어느 정도인가? – 신뢰구간(confidence interval)

가설검증

효과가 없다 (귀무가설=영가설, null hypothesis)

효과가 있다 (대립가설, alternative hypothesis)

단측 대립가설 (효과의 방향까지 정의. 크다 or 작다. one-sided alternative)

양측 대립가설 (효과가 있다는 것까지만 정의. 같지 않다. two-sided alternative) *일반적으로 사용

가설검증의 기본

innocent until proven guilty

귀무가설을 증명할 수는 없다.

대립가설을 지지하는 증거가 충분하지 않으면, 기본적으로는 귀무가설을 지지한다.

단, 대립가설을 지지하는 증거가 충분하지 않다고 해서, 귀무가설이 사실임을 증명하는 것은 아니다.

p값이 크다는 것은 귀무가설에 반하는 증거가 불충분하다는 것이지, 귀무가설을 증명하는 증거가 있다는 것이 아님 (중요!)

통계학이 현상을 설명하는 방식

현상(실험)

A채널과 B 채널로 인입된 사용자들의 결제액을 비교했더니, B채널로 인입된 사용자들이 평균 7500원 더 많이 결제했다.

그냥 직관적인 설명?

B채널이 A채널보다 더 좋다

평균 결제액의 증가는 7500원이다

여기에 대한 통계학의 겸손한 대답!

B채널이 효과가 없는데 이렇게 큰 표본평균 결제액 증가값이 관측될 확률은 11%다 (p-값)

평균 결제액의 증가에 대한 95% 신뢰구간은 -5300, 20300 이다.

통계학의 가설 검증

모수와 표본

“우리가 현재 관측한 데이터는 모수의 어떤 값에서 관측될 수 있는 여러 가능한 데이터 중 하나다”

모집단(population)의 수치적 요약인 모수(parameter)는 절대불변의 값 (하지만 우리가 알 수 없는 값)

표본(sample)의 수치적 요약인 통계량(statistic)은 잴 때 마다 달라지는 값 (추출되는 표본에 따라서 매번 조금씩 다른 값)

표본 크기가 충분히 크다면, 모집단의 본포와 상관없이 표본의 평균은 정규분포 (=중심극한정리)

표본에서 추출한 통계량은 하나의 고정된 값이 아니고, 그 자체가 특정 ‘분포’를 이룬다 (주로 정규분포)

10,000번의 관측(시뮬레이션)을 한다고 가정해보면, 10000개의 통계량으로 이루어진 평균분포, 표준편차분포, t-통계량 분포를 각각 구할 수 있다

신뢰구간

모수(parameter)가 어느 범위 안에 있는지를 확률적으로 보여주는 방법

95% 신뢰구간의 개념 -> 반복적으로 표본 추출을 100회 했을 때, 모평균(parameter)을 포함한 신뢰구간이 95개 나올 수 있다.. 고 해석해야 함

(단순히 모평균을 포함할 확률이 95%라고 보면 안됨)

https://blog.naver.com/vnf3751/220823007712

t-통계량을 해석하는 법

우리가 관측한 t-통계량 값이 1.3이라면

10000개의 시뮬레이션 중, t-통계량이 1.3보다 큰 결과를 가진 시뮬레이션은 몇 개인가? 그 비율은?

이까지 이해되었으면 이제 p값으로 넘어가자!

P-값을 해석하는 법

P값의 정의

귀무가설 하에서, 관찰된 통계량만큼의 극단적인 값이 관찰될 확률

The p-value is defined as the probability, under the assumption of the null hypothesis, of obtaining a result equal to or more extreme than what was actually observed

P값을 해석하기

p=0.5 라면,

귀무가설 하에서 우리가 얻은 통계량이 관찰될 확률이 50% -> 매우 높다 -> 귀무가설에 대한 반박증거가 부족하다

p=0.01 이라면,

귀무가설 하에서 우리가 얻은 통계량이 관찰될 확률이 1% -> 매우 낮다 -> 귀무가설을 반박할 수 있다.

p = 0.10 을 해석해보자.

A채널과 B채널 간 효과의 차이가 없다면 우리가 관측한 정도의 데이터만큼 큰 t-통계량 값을 관측할 확률은 10%이다.

A채널과 B채널의 효과 차이가 없을 확률이 90%이고, B채널이 더 효과적일 확률이 10%이다… 는 식으로 해석하면 안됨.

P-값의 오해와 남용 (중요!)

1. p-value는 데이터가 특정 통계 모형과 얼마나 대립하는지 나타낸다.

2. p-value는 연구 가설이 참일 확률이나 데이터가 오로지 우연으로 생성되었을 확률을 측정하지 않는다.

3. p-value가 특정 임계점을 통과했는가가 단독으로 과학적 결론이나 사업적/정책적 결정을 내리는 근거가 되어서는 안 된다.

4. 적절한 추론에는 완전한 보고와 투명성이 필요하다.

5. p-value, 혹은 통계적 유의성은 효과의 크기나 결과의 중요성을 측정하지 않는다.

6. p-value 자체는 모형이나 가설에 관련한 증거에 대한 훌륭한 척도를 제공하지 않는다.

관련 링크

https://www.editage.co.kr/insights/is-my-research-significant-why-you-shouldn%E2%80%99t-rely-on-p-values

https://amstat.tandfonline.com/doi/pdf/10.1080/00031305.2016.1154108

통계적 검정력

1종 오류(alpha)

귀무가설이 옳은데 이를 기각하는 오류

효과가 없는데, 효과가 있다고 판단

(남성에게) 임신하셨습니다?!

일반적으로 1종 오류는 분석자가 기준을 정함 (신뢰수준 95%, 99%… 하는 식으로)

2종 오류(beta)

귀무가설이 옳지 않은데 이를 채택하는 오류

효과가 있는데, 효과가 없다고 판단

(임산부에게) 임신이 아닙니다?!

검정력(power)

대립가설이 옳을 때 귀무가설을 기각할 확률 (=대립가설이 참일 때 대립가설을 채택할 확률)

실제로 효과가 있는 것을 분석을 통해 효과가 있다고 증명할 수 있는 힘

계산: 1 – beta

다른 조건이 같을 때 검정력을 높이려면, 1종 오류가 늘어난다.

1종오류와 2종오류는 기본적으로 어느 한 쪽이 커지면 다른 쪽이 작아지는 구조

1종오류를 늘리지 않고 검정력을 높이려면 -> 표본 수를 늘리면 됨

참고 글

A/B 테스팅이란 (강규영님)

A/B테스트에서 p value에 휘둘리지 않기 (박장시님)

sample size 계산기

http://www.evanmiller.org/ab-testing/sample-size.html

https://docs.adobe.com/content/target-microsite/testcalculator.html

데이터 분석, 어떻게 시작하면 될까?

그로스해킹 : 데이터와 실험을 통해 성장하는 서비스를 만드는 방법

keyword

매거진의 이전글SQL window function 정리 가격이 모든 것이다.매거진의 다음글