brunch

You can make anything
by writing

C.S.Lewis

by Sacony Review Apr 07. 2023

상관관계의 함정: 스타트업에서의 예시

상관관계 (X~Y)는 두 변수 사이의 연관성을 나타내고, 인과관계(X->Y)는 한 변수가 다른 변수에 영향을 미치는 원인/결과의 관계를 나타낸다. 우리는 일상에서도 수많은 상관관계를 접하고 그것을 인과관계로 착각하고 헷갈려 한다.


예를 들어, 운동량과 체중 감소는 상관관계일까? 인과관계일까? 인과관계라고 주장할 수 있는 이유도 있겠지만, 대체로 운동을 많이 하는 사람들은 실제로 식습관이나 생활 습관 또한 체중감소에 도움이 되는 습관을 가질 가능성이 있기에, 운동량과 체중감소의 인과 관계를 섣불리 단정 짓기는 힘들다. 


스타트업과 기업에서는 어떨까? 상관관계와 인과관계를 헷갈려서 문제 될 수 있는 것들은 무엇이 있을까? 스타트업에서는 주로 한정된 자원과 시간을 가지고, 제한된 데이터를 바탕으로 의사 결정을 내려야 하는 경우가 많다. 시간과 돈은 없고, 데이터는 자신의 기업의 데이터만을 활용해야 하다 보니, 상관관계를 인과관계로 착각하여 할 수 있는 실수들이 분명히 존재한다. 


예를 들어, 2013년에 eBay는 1년에 약 $50M을 검색엔진 광고 비용으로 활용하고 있었다 [참조문헌]. 컨설팅펌에서는 광고가 많이 집행된 카테고리에서 매출이 증가했으며, 광고와 매출의 인과관계가 확실하여 광고비용을 늘려도 될 것이라고 결론을 지었다. 하지만, 그 다음 여러 차례 실험을 통하여, 이 광고는 주로 이미 eBay에 접속을 자주 하던 사람들이 클릭을 하여 구매로 이루어진 것이었고, eBay에 접속을 잘 안 하는 사람들에게서는 효과가 거의 없는 것으로 나타났다. 즉, 광고를 안 하였어도, 이미 살 사람들은 살 것이었고, 안 살 사람들은 안 살 것이었던 것이다. 


비슷한 예시로, 추천시스템 기능을 추가한기업이 추천시스템에 인해서일어난 구매를 인과관계라고 보기 쉽지만, 추천시스템이 없었더라도 약 75%의 구매는 이미 그 제품을 살 사람들이였다라는것을 보여준 연구도 있다. [참고문헌]


이처럼 상관관계를 인과관계로 헷갈리는 이유에는 여러 가지가 있지만 다음 두 가지가 대표적이다.   

제3의 변수 혹은 선택 편향: 위의 예시에서처럼 제3의 변수가 혼용변수 또는 선택 편향으로 작용하는 경우이다. 이미 eBay에 접속할 가능성이 높은 사람들이 광고에 클릭할 가능성도, 그리고 구매할 가능성도 높았던 것이다. 만약, 그것을 고려하지 않는 다면 광고가 구매에 직접적으로 원인을 제공하였다고 착각할 수 있다. 

역 인과관계: 한 변수가 다른 변수의 원인이었다고 생각했지만 그 반대인 경우도 있다. 예를 들어, 자율 근무제를 시행한 스타트업의 성과가 높았다는 소식을 들었다고 치자. 단면적으로는, “우리도 자율 근무제를 시행해야지”라고 판단을 내릴 수도 있지만, 성과가 높은 스타트업이 자율 근무제를 시행한 것일 수도 있다. 이처럼 인과 관계를 생각할 땐, 역 인과관계도 고려하여야 한다.


그렇다면, 스타트업이나 기업에서 이러한 헷갈림을 방지하는 법으로는 무엇이 있을까?  

상관관계와 인과관계의 차이의 인지와 질문: 시작은 무엇보다도 이 두 관계가 헷갈릴 수 있다는 것의 인지하는 것으로 출발한다. 그리고, 제3의 변수, 선택편향, 그리고 역인과관계에 대한 질문을 꼭 해보자. X와 Y에 동시에 영향을 준 변수는 없을까? 있다면 어떻게 그 편향을 없앨 수 있을까? 사람들이 가장 쉽게 무시하는 제3의 변수로써는 “시간”이 있다. 예를 들어, 약을 먹고 잠을 잤더니 다음날 컨디션이 좋았다고 치자. 이건 약의 효과 때문일 수도 있지만, 시간이 흘러서 일수도 있고, 잠을 잤기 때문일 수도 있다. 마찬가지로 스타트업에서도 제3의 변수가 결과에 영향을 줄 수 있다는 것을 인지하자.

실험: 인과관계를 성립하는 데는 실험험 (e.g., A/B Testing, 그리고Randomized Control Experiment)보다 나은 대안은 없다. 하지만, 실험 디자인에 있어서도 여러 가지 편향에 빠질 수 있다는 것도 알아야 한다. 실험디자인에서는 실험 대상의 무작위성 (실험에 참가하는 대상들은 선택편향이 없는지?), 그리고 대조군과 실험군의 무작위 선정 (실험군과 대조군은 비슷한 대상들인가?)이 중요하다. 이 부분에 대해선 다음에 기회가 되면 한 번 더 글로 다루어 보려고 한다. 그리고 당장 실험이 어려운 경우가 많기에, 그럴 경우에는 실험을 모방하는 준실험 방법 (매칭)등이 도움이 될 수도 있다.

여러 가지 방법: 두 변수에 대한 관계에 대해서 더 알고 싶을 땐, 한 가지 방법이나 데이터에 의존할 것이 아니라, 여러 가지 방법 그리고 반복된 실험과 여러 데이터를 함께 분석을 해보자.


링크: https://saconyreview.glivery.co.kr/p/2311813074244

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari