brunch

p-value라는 마법의 숫자에 숨겨진 진실

"통계적으로 유의미한 차이가 있습니다"라는 말에 대한 해석

by Dr Vector

새벽 2시. 모니터 불빛만이 어둠을 밝히는 사무실에서 김 대리는 절망하고 있었다. 3개월간 진행한 신제품 A/B 테스트 결과, p-value가 0.07이 나온 것이다. 회사 기준인 0.05보다 높았다.

"아... 유의미한 차이가 없다는 건가? 그럼 이 프로젝트는..."

김 대리의 한숨과 함께, 오늘은 통계학에서 가장 오해받고 있는 숫자, p-value의 이야기를 해보려 한다.


p-value, 너는 누구냐?

p-value를 이해하려면 먼저 이런 상황을 상상해 보자.

당신이 동전 던지기 게임을 하는데, 상대방이 가져온 동전이 뭔가 의심스럽다. 10번 던졌는데 앞면이 8번 나왔다. 이 동전이 조작된 걸까?

p-value는 바로 이 질문에 답해준다: "만약 동전이 정상이라면, 극단적인 결과가 나올 확률은 얼마나 될까?"

동전이 앞 혹은 뒤만 나온다고 가정하고 계산해 보면 정상 동전으로 10번 중 8번 이상 앞면이 나올 확률은 약 0.055, 즉 5.5%다. 이러한 가설을 검증하는 과정에서 나오는 확률이 바로 p-value다.


쉬운 비유: 법정에서의 증거

p-value는 법정의 증거 평가와 비슷하다. 이는 통계학에서 널리 사용되는 표준적인 비유다. 피고인이 무죄라고 가정했을 때(귀무가설), 현재 증거(데이터)만큼 혹은 더 강한 증거가 나올 확률이다.

p-value가 낮다 = 무죄라고 가정하기엔 증거가 너무 강하다. (귀무가설에 대한 증거가 약하다)

p-value가 높다 = 현재 증거로는 피고인이 무죄라고 가정하는 것과 일치하는 결과이므로, 유죄 입증이 어렵다. (무죄 증명이 아님!)

⚠️ 중요: 높은 p-value는 "무죄 증명"이 아니라 단지 "증거 불충분"을 의미한다.


현실 속 p-value: 세 가지 사례

1. 신약 개발: 생명을 좌우하는 숫자

제약회사에서 새로운 혈압약을 개발했다. 임상시험 결과:

신약 그룹: 평균 혈압 130mmHg

기존약 그룹: 평균 혈압 135mmHg

p-value: 0.025

p-value가 0.025라는 것은 "두 약의 효과가 동일하다"라고 가정했을 때, 이 정도 차이가 우연히 생길 확률이 2.5%라는 뜻이다. 일반적으로 5% 미만이면 "유의미한 차이"로 판단한다.


2. 마케팅: 광고 효과 측정

온라인 쇼핑몰에서 새로운 배너 광고를 테스트했다:

기존 배너: 클릭률 2.1%

새 배너: 클릭률 2.3%

p-value: 0.12

p-value가 0.12라는 것은 "두 배너의 효과가 동일하다"라고 가정해도, 이 정도 차이는 12% 확률로 생길 수 있다는 의미다. 일반적으로 "유의미한 차이가 없다"라고 결론 내린다.


3. 교육: 새로운 교수법의 효과

새로운 수학 교수법을 도입한 결과:

기존 방법: 평균 점수 75점

새 방법: 평균 점수 78점

p-value: 0.001

p-value가 0.001이라는 것은 "두 교수법의 효과가 동일하다"라고 가정했을 때, 이 정도 차이가 우연히 생길 확률이 0.1%에 불과하다는 뜻이다. 두 교수법이 유의미한 차이가 있다고 말할 수 있는 강력한 증거다.


p-value 해석법과 주의할 점: 5가지 핵심 포인트

1. p-value는 확률이다 (0~1 사이)

0에 가까울수록: 우연일 가능성이 낮다

1에 가까울수록: 우연일 가능성이 높다


2. 0.05라는 마법의 숫자

0.05 미만: 통계적으로 유의미함

0.05 이상: 통계적으로 유의미하지 않음

⚠️ 이 기준은 R.A. Fisher 시대의 관례로, 절대적 진리가 아니다!

분야와 맥락에 따라 0.01, 0.001, 또는 0.1을 사용하기도 함, 필요에 의해 기준치 설정은 달라질 수 있다는 점.


3. p-value가 말하는 것 vs 말하지 않는 것

p-value가 실제로 말하는 것:

귀무가설이 참이라고 가정할 때, 관찰된 결과(또는 더 극단적인 결과)가 나올 확률을 의미한다.

p-value가 말하지 않는 것:

귀무가설이 참일 확률 (이건 완전히 다른 개념!)

대립가설이 참일 확률

효과의 크기나 중요도

실용적, 임상적 의미


4. 작은 p-value ≠ 큰 효과

샘플 수가 매우 크면 아주 작은 차이도 통계적으로 유의미할 수 있다. 예를 들어, 100만 명을 대상으로 한 연구에서 0.1%의 차이도 p < 0.001이 나올 수 있다.


5. 큰 p-value ≠ 차이 없음

"통계적으로 유의미하지 않다"는 "차이가 없다"와 완전히 다르다. 단지 현재 데이터와 표본 크기로는 확신할 수 없다는 뜻이다. 이는 법정에서 "증거 불충분"과 "무죄"가 다른 개념인 것과 같다.


p-value의 5가지 함정

함정 1: p-해킹 (p-hacking)

연구자가 p < 0.05를 얻기 위해 데이터를 조작하는 것.

예시:

여러 변수 중 유의미한 것만 선택

샘플 크기를 조정하며 계속 테스트

이상치를 제거하며 p-value 조정


함정 2: 다중비교 문제

여러 번 검정하면 우연히 p < 0.05가 나올 확률이 높아진다.

예시: 20개 변수를 동시에 테스트하면 우연히 1개 정도는 p < 0.05가 나온다.


함정 3: 효과 크기 무시

p-value가 작아도 실제 효과는 미미할 수 있다.

예시: 새 다이어트 약이 통계적으로 유의미하게 체중을 감소시키지만, 실제로는 평균 100g만 준다.


함정 4: 표본 크기의 함정

표본이 너무 작으면: 큰 효과도 유의미하지 않게 나온다

표본이 너무 크면: 작은 효과도 유의미하게 나온다


함정 5: 0.05 경계에서의 이분법적 사고

0.049와 0.051의 차이를 과도하게 해석하는 경우가 많다. 0.05는 Fisher 시대부터 내려온 관례일 뿐, 자연법칙이 아니다. p-value는 연속적인 증거의 강도를 나타내므로, 경곗값 근처에서는 특히 신중하게 해석해야 한다.


p-value와 함께 봐야 할 것들

1. 효과 크기 (Effect Size)

단순히 유의미한지가 아니라 얼마나 큰 차이인지 확인하자.


2. 신뢰구간 (Confidence Interval)

p-value보다 더 많은 정보를 제공한다.


3. 실용적 유의미성

통계적으로 유의미해도 현실에서 의미 있는 차이인가?


4. 사전 확률

베이즈 관점에서 가설이 참일 사전 확률도 고려해야 한다.


실무자를 위한 p-value 가이드

보고서 작성 시

❌ 잘못된 표현:

"p < 0.05이므로 A가 B보다 효과적입니다."

✅ 올바른 표현:

"관찰된 차이가 우연히 발생할 확률이 5% 미만이므로, A와 B 사이에 실제 차이가 있을 가능성이 높습니다. 다만 효과 크기와 실용적 의미를 추가로 검토해야 합니다."


의사결정 시

p-value만 보지 말고 효과 크기도 확인

비용-편익 분석 함께 고려

추가 데이터 수집 가능성 검토

불확실성을 인정하고 리스크 관리


A/B 테스트의 결과 해석 시

사전에 필요한 표본 크기 계산

여러 지표를 동시에 보지 말고 핵심 지표 선정

세그먼트별 분석 시 다중비교 보정


에필로그: p-value와 현명하게 살기

새벽 2시의 김 대리에게 돌아가자. p-value 0.07이 나왔다고 해서 프로젝트가 실패한 걸까?

꼭 그렇지는 않다. 효과 크기를 보니 신제품이 기존 제품보다 15% 더 좋은 성과를 보였다. 비즈니스적으로 충분히 의미 있는 차이다. 단지 데이터가 더 필요할 뿐이다.

p-value는 강력한 도구지만 완벽하지 않다. 마치 나침반과 같다. 방향을 알려주지만, 그 길이 험한지 평탄한지, 목적지가 가볼 만한 곳인지는 알려주지 않는다.

통계는 과학이지만, 통계를 해석하는 것은 주관적이다. 숫자 뒤에 숨은 맥락을 읽고, 불확실성을 인정하며, 현명한 판단을 내리는 것. 그것이 진짜 데이터 사이언티스트의 역량이다.

p-value와 함께 현명하게 살아가자. 맹신하지도 말고, 무시하지도 말고, 올바르게 이해하고 활용하자.

keyword
매거진의 이전글데이터 사이언스의 뿌리와 진화