데이터를 쪼개서 보기, Simpson's paradox

Jan 19. 2017

코호트 분석, A/B테스트, 퍼널 분석 등 데이터를 통해 유의미한 인사이트를 찾아내는 방법들에는 공통점이 있다. 바로 데이터를 '쪼개서' 살펴본다는 점이다. 전체 데이터를 놓고 보면 잘 드러나지 않는 특성들이 '쪼개진' 상태에서는 명확하게 드러나는 경우가 많은데, 이처럼 raw data를 분석 과정에서 어떤 식으로 가공하느냐에 따라 데이터에서 얻는 인사이트는 완전히 달라질 수 있다. ('가공'이라는 용어를 썼는데... 쪼개서 보는 것 이외에, 데이터를 재조합해서 분석하는 방법 - 요인분석이나 주성분분석 등등- 도 데이터에서 유의미한 인사이트를 찾아내는 널리 알려진 방법이다. 어쨌든 raw data를 그대로 놓고 들여다보는 것 보다는, 쪼개거나 합치거나 재조합하거나... 하는 과정이 필요하다는 게 포인트!)

데이터를 쪼개서 보는 것과 관련해서, 통계학에서 'Simpson's paradox' 라고 부르는 재미있는 개념이 있다. 심슨 패러독스란 '쪼개진' 데이터에서 성립하는 관계가 '합쳐진' 데이터에서는 다른 형태로 나타나는 현상을 말한다. 널리 알려진 사례 중 하나는 UC Berkely 의 1973년 대학원 입시와 관련된 해프닝이다.

1973년 가을, UC Berkeley 대학원 입시 결과를 놓고 소송이 제기되었다. 소송 제기인은 대학 측이 합격자 선발 과정에서 여학생들을 부당하게 차별했다고 주장했는데, 실제 입시 결과를 보면 남학생의 경우 지원자의 44%가 합격 통보를 받았지만 여학생들은 지원자의 35%만이 합격 통보를 받은 것으로 나타났다. 우연으로 보기에는 큰 차이인데 (실제로 이 데이터를 넣고 카이제곱 검증을 하면 성별에 따른 합격률이 통계적으로 유의미한 차이가 있는 것으로 나온다) 과연 UC Berkeley는 정말로 대학원 입시에서 여학생들을 차별한 것일까?

전체 Admission 데이터

놀랍게도, Admission 데이터를 학과별로 쪼개서 살펴보면 전혀 다른 패턴이 발견된다. 전체 85개 학과 중 남학생의 합격률이 통계적으로 유의미하게 높은 학과는 4개에 불과했으며, 반대로 여학생의 합격률이 유의미하게 높은 학과가 6개로 더 많았다. (사실 대부분의 학과에서 성별에 따른 합격률은 통계적으로 유의미한 차이를 보이지 않았다.)

모집인원이 많은 주요 학과에 대한 Admission 결과가 아래 표에 나타나 있는데, 여학생들의 합격률이 더 높은 학과가 많음에도 불구하고 (+ 합격률이 낮은 과라고 하더라도 격차가 매우 미미함에도 불구하고) 6개 학과의 결과를 '합산해서' 보게 되면 44% vs. 30% 로 여학생들의 합격률이 현저하게 낮은 것을 확인할 수 있다. 이상하게도...

학과별로 '쪼개서' 본 Admission 데이터

이런 현상이 발생하는 이유는, 경쟁률이 높고 합격률이 낮은 학과에 여학생들이 상대적으로 많이 지원했기 때문이다. (반대로 이야기하면, 합격률이 높은 학과에 지원한 여학생들이 상대적으로 적기 때문이다) 즉, 합격률이 낮은 과에 지원했다가 불합격한 지원자 수가 전체 여학생 지원자 그룹에서 높은 비율을 차지하면서, 여학생들의 전체적인 합격률을 끌어내리는(!) 효과를 가져온 것으로 볼 수 있다. 학과별로 합격률이 일정하지 않은 상황에서, 특정 학과로의 지원 쏠림 현상이 발생하는 경우 이와 같이 전체 결과의 경향성이 부분 결과의 경향성과 일치하지 않는 케이스가 발생한다. Simpson's Paradox를 보여주는 대표적인 사례이다.

서비스 데이터를 분석할 때도 이처럼 단순히 '전체' 데이터만 놓고 비교하는 경우 유의미한 결과를 놓치거나, 나아가서는 데이터를 완전히 잘못 해석하는 사례가 얼마든지 발생할 수 있다. 두 가지 서로 다른 제휴마케팅을 진행하고 해당 마케팅을 통한 가입자와 결제자를 살펴본 결과 아래 표와 같은 데이터를 얻었다고 하자. 전체 데이터를 놓고 보면, 가입자와 결제자의 절대적인 숫자가 많고 결제비율이 높게 나타나는 제휴마케팅 A가 더 성공적으로 보일 수 있지만, '성별'이라는 기준으로 이 데이터를 쪼개서 보면 제휴마케팅 B를 통해서 가입한 여성 사용자가 더 많고, 남여 각각의 결제비율도 더 높은 것을 알 수 있다.

그렇다면 이 경우 어느 쪽이 더 효과적인 마케팅이라고 할 수 있을까? 가입자와 결제자의 절대적인 숫자가 크고 결제비율이 높은 A? 아니면 성별로 쪼개서 봤을 때 결제비율이 높은 B?

지난 포스팅에서 언급한 대로, 이 경우 우리 서비스의 현재 목표(OMTM)가 무엇인가... 에 따라 가치판단이 달라질 수 있다. 가령 아래 예로 든 항목 중 현재 포커싱하고 있는 목표가 무엇인가에 따라서 어떤 경우에는 A가 보다 좋은 마케팅이었다고 판단할 수도 있고, 반대로 B의 마케팅 효과가 더 뛰어났다고 판단할 수도 있다.

- 우리 서비스는 가입자를 최대한 확보하는 게 중요하다

- 우리 서비스는 '여성' 가입자를 최대한 확보하는 게 중요하다 (데이팅 서비스 만들다보면 이게 진짜 지상최대의 목표;;;; 쿨럭)

- 우리 서비스는 매출을 maximize하는 게 중요하다

- 우리 서비스는 결제비율이 높은 사용자들을 최대한 많이 확보하는 게 중요하다

- 우리 서비스는 결제하는 고객의 성비를 잘 유지하는 게 중요하다

...

이처럼 데이터를 살펴볼 때 (특히 단순 descriptive analysis를 할 때)는 가능한 '입체적으로' 데이터의 구조를 살펴보는 습관이 필요하다. (데이터를 쪼개서 보든, 재조합해서 보든, 다른 데이터와 합쳐서 보든...)

숫자는 거짓말을 하지 않지만, 숫자의 표면과 이면에서 이야기하는 내용들은 얼마든지 다를 수 있기 때문이다. :)

더 공부하고 싶다면?

그로스해킹 : 데이터와 실험을 통해 성장하는 서비스를 만드는 방법

keyword

매거진의 이전글가장 중요한 한 가지 지표, OMTM뭐가 문제인지를 모르는 게 문제 매거진의 다음글