brunch

You can make anything
by writing

- C.S.Lewis -

by 김작가 Nov 25. 2018

인과관계와 상관관계는 다르다

데이터분석의 힘을 읽고

상관관계는 아무런 도움이 되지 않는다


우리는 살아가면서 수많은 의사결정을 하게 된다. 어떤 의사결정을 내릴 때, 우리는 어떤 결과를 기대하게 된다. 가령 '유산소 운동 시간이 많으면, 살이 빠질 것이다'라는 기대를 통해 우리는 앞으로 다이어트를 위해 유산소 운동을 열심히 하겠다는 의사결정을 내리게 된다. 실제로 데이터를 보니 유산소 운동량이 많은 사람일수록 비만도가 낮았다고 가정해보자. 그러면 이런 의사결정은 옳은 것일까?

A/B 테스트 기법은 큰 주목을 받고있다.(출처: optimizely.com)

이런 상황에서 우리는 다음과 같은 상황을 고려해 볼 수 있다. 우선 X→Y가 아닌 Y→X인 경우, 한마디로 역逆인과관계 reverse causality인 경우. 다시 말해, 살이 빠지니, 유산소 운동량이 더욱 늘어나는 경우다. 체중이 높을 때는 조금만 뛰어도 힘들었는데, 살이 빠지고 나니까 훨씬 더 가벼운 상태가 되어 유산소 운동량이 늘어난 경우를 생각해 볼 수 있다. 또 다른 경우는 유산소 운동시간을 늘리면서, TV 보면서 군것질하는 시간이 줄어들고 그래서 살이 빠진 경우다. 다시 말해, X 외에 다른 요인이 Z가 개입하여 X와 Y에 영향을 준 경우다. 그래서 이런 데이터를 통해서 우리는 인과관계를 파악했다는 말 대신, 상관관계를 파악했다고 말한다.


비즈니스 현장이든 정책 결정 과정이든 의사 결정의 열쇠가 되는 것은
인과관계이지 상관관계가 아니다. (39p, 데이터 분석의 힘)


그런데 우리가 데이터를 분석하는 이유는 결국 의사결정을 잘하기 위함이고, 그러기 위해서는 인과관계를 파악해야 한다. 그래서 상관관계가 아닌 인과관계를 파악하기 위해서는 증명에 영향을 주는 요인, 잠복 변수인 Z를 제거해서 잘못된 데이터로 생긴 오차인 편향 bias을 없애야 한다고 말한다. 그런데 실제로 이 Z를 완벽하게 제거하는 것은 어려운 일이다. 게다가 우리가 놓치는 Z도 충분히 많기 때문에 실질적으로 없애는 것은 어렵다고 볼 수 있다. 그런데 이를 파악할 수 있는 방법이 있다. 바로 무작위 비교 시행(RCT)이라 불리는 A/B TEST이다


무작위 추출 집단 비교를 통한 A/B 테스트


하버드 대학의 도널드 루빈은 이것을 밝힐 수 있는 방법을 제시했다. 가령 내가 유산소 운동을 했을 때 감소한 체중을 Y1라고 하고, 유산소 운동을 하지 않았을 때 감소한 체중을 Y0라고 하면, 유산소 운동의 효과는 Y1-Y0로 설명할 수 있다. 이를 개입 효과라고 한다. 하지만 이 실험을 하는 것은 불가능하다. 왜냐하면 지금 이 시점의 나는 딱 한 번밖에 존재할 수 없기 때문이다. 그래서 유산소 운동을 하는 나와하지 않는 내가 공존할 수 없기 때문에 이 실험을 불가능한 것이다.


그래서 루빈은 이런 방법을 제시한다.

한 사람에 대한 개입 효과는 측정할 수 없지만 여러 사람에 대한 개입 효과를 평균한 값인 '평균 개입 효과(Average Treatment Effect, ATE)는 측정할 수 있다고 설명한다. (53p, 데이터 분석의 힘)

여기서 평균이라고 얘기한 것에서 대상이 하나 이상의 집단임을 짐작할 수 있다. 루빈은 개입을 받는 '개입 집단'과 개입을 받지 않는 '비교집단(통제집단, 대조 집단)'으로 나뉘게 된다. 이것을 A집단, B집단으로 표현해서 A/B Test라고 부르기도 한다. 이렇게 나뉜 두 집단에서는 '유산소 운동을 하지 않았을 경우, 둘의 체중변화의 평균값은 같다'라는 가정이 있어야 한다. 그다음에 '개입'을 통해 효과를 비교할 수 있다. 특히 이 경우 가정이 성립하기 위해서는 무작위 비교 시행인 RCT를 통해 나눠야 하며, 그렇지 않은 경우에는 인과관계를 측정할 수 없다.

비즈니스의 세계나 정책 분석의 세계에서는 자기 선택에 따라 집단을 나누는 경우가 많다. 이를테면 할인 쿠폰을 받은 소비자와 받지 않은 소비자의 행동을 비교하고, 보조금을 받지 않은 세대를 비교하는 식이다. (58p, 데이터 분석의 힘)

이처럼 무작위로 추출한 두 집단 간의 A/B Test를 해야 우리는 두 변수 간에 인과관계를 파악할 수 있고, 이를 통한 유의미한 의사결정으로 이어질 수 있을 것이다. 이것이 우리가 A/B Test를 해야 하는 이유다.


매거진의 이전글 여행을 마케터의 자산으로 바꾸는 법

매거진 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari