인과관계와 상관관계

데이터 해석에서 주의할 점

Apr 25. 2020

실무를 하면서 어렵게 구한 데이터가 오용되는 것을 많이 봅니다. 한참 데이터로 이야기를 풀다가 결정적인 부분에 와서는 더 없는 데이터 때문에 갑자기 상상의 나래로 들어가서 결론을 내리는 장면이나 통계적 의미에 대해 분명히 설명해도 어렵게 구한 클러스터를 깡그리 무시하는 모습들을 보면서 결과 적용의 한계를 느끼는 시간도 많습니다. 정반대로 숫자의 나열만 가득해 온 분석 결과를 보면서 어디서부터 설명해야 할지 모르는 후배들을 만나기도 합니다. 비즈니스에서 데이터 분석을 통한 적용은 마치 다른 세계에 있는 두 언어를 하나로 이어주는 통역 같은 역할이 꼭 필요함을 느낍니다. 둘 다를 다 잘하는 사람은 정말 찾아보기 드뭅니다.

특히 인과관계와 상관관계에 대한 오용은 간편하게 어려운 길로 빠지게 만듭니다. 상관 분석은 비교적 쉽게 적용할 수 있는 주제라서 초반에 데이터 분석을 할 때 많이 하곤 합니다. 가령 하나의 상품을 구매할 때 함께 구매하는 카테고리를 알고 싶거나 전혀 다른 두 채널에서 같은 고객이 서로 비슷하게 이용하는 카테고리를 찾을 때 여러 방법이 있겠지만 탐색적 방법으로 상관관계를 구하기도 합니다. 또 상품의 판매량을 설명하는 변수들을 초반에 간단하게 볼 때도 사용합니다. 깊이 있는 적용은 아니더라도 비즈니스를 하는 사람들과 그나마 편하게 이야기할 수 있는 결과 중 하나여서 일을 시작하는데 많이 보여주는 결과입니다.

* 상관관계 : X가 증감할 때 Y가 얼마나 증감하는 것을 나타내는 관계. -1과 1 사이의 상관계수를 통해 함께 늘어나는지 오히려 반대로 줄어드는지 설명한다. 보통 0에 가까우면 변수 사이의 관계가 없으며 -1과 1에 가까울수록 상관성이 있다고 말할 수 있다. "까마귀 날자 배 떨어진다"처럼 우연도 해당될 수 있다.

* 인과관계 : 먼저 X가 일어날 때 Y가 어떻게 변하는지에 따라 Y에 영향을 주는 X를 설명하는 관계. 관계를 설명할 때 누락된 다른 변수가 없는 상태에서 안정적인 결과가 반복적으로 나타나는 것이 상관성과의 주요 차이이며 회귀식 등 모델을 통해 파악할 수 있다.

사실 데이터 분석이라는 말까지 안 해도 비즈니스 현장에서 암묵적으로 상관관계가 있다고 믿는 것들이 많이 있습니다. 연령과 온라인 채널 구매 비중이나 날씨와 오프라인 입점 객수, 주변 유동 인구와 매출액 등 우리는 굳이 검증하지 않아도 상식적인 수준에서 상관성이 있다고 믿는 것을 경험 혹은 선배들의 가이드를 통해 실무에 자리 잡았습니다. 이런 것을 제대로 검증하는 것도 기존 연역적 사고와 암묵지에 도전하는 정확한 데이터적 방식이라 부를 수 있겠죠. 그래서 상관성을 제대로 검증하는 것은 가격 정책이나 마케팅 전략 등 비교적 편하지만 강력한 분석이 될 수 있습니다.

하지만 상관성은 결과만을 가지고 해석하게 만들어줍니다. 결과로 나온 무엇과 무엇이 서로 양의 상관관계에 있고 특히 1에 가까운 높은 상관계수를 가지고 있을 때는 무엇이 늘어날 때 무엇도 늘어나는 것이 높다로 해석할 수 있습니다. 하지만 그것이 무엇이 변했기에 무엇이 변했다는 인과적 관계가 꼭 있는 것은 아닙니다. 시간적으로 영향을 주고 있는지, 혹 다른 변수들이 이 사이에 존재해서 이런 결과를 보이는지, 이번만 이럴 수도 있기에 상관성이 높다고 인과가 꼭 있는 것은 아닙니다.

하지만 비즈니스 현장은 인과를 통해 성과를 만드는 곳입니다. 그래서 분석 결과를 자연스럽게 인과적 서사로 해석하는 경향이 많습니다. 인과 관계가 있는지 실험이 추가로 필요하지만 그렇게 깊이 있게 생각하고 검증하는 시간을 사치로 생각하는 리더들이 있기에 데이터 결과에 따라 실무에 적용했는데 결과로 이어지지 못해 어디서 문제가 있는지 모른 채 다시 자신의 직감만 믿는 것으로 돌아가기도 합니다. 안타까운 일입니다. 대부분 데이터 분석의 역할을 맡는 직원이 리더보다 힘이 없거나 설득하기에 짧은 신뢰 기간을 가지고 있기에 이런 일이 벌어지는 조직이 적지 않습니다. 아니면 상관관계를 분석한 내용을 보고 더 이해하기보다는 "그래서 뭐?" 식으로 관심 없어 할 수도 있죠. 이런 분석 결과를 실무에 어떻게 녹여낼 것인가는 서로 머리를 맞대어야 하는 문제인지 모른 채 말입니다. 완벽히 분석을 하는 사람이 완벽히 현장을 알고 있는 경우는 드문 것이니까요.

인과 관계로 연결되는 것을 검증하는 실험을 합니다. 대조군을 선정해서 다른 변수가 결과에 개입할 여지를 최소화시킨 후 확인하고 싶은 변수만 가지고 여러 시나리오에서 실험을 합니다. 그로스 해킹 같은 방법을 아날로그 산업에서도 여건에 맞게 실험할 수 있습니다. 다만 상관성이 있는 기회를 대수롭지 않게 넘어가지는 말아야겠죠.

아동 용품을 판매하는 회사에서 40대 점원 수가 높은 매장이 재구매율이 높은 상관관계가 나왔다고 합시다. 200여 개 매장에서 상관계수 0.8 이상의 높은 관계로 둘 사이의 양의 상관성이 나왔다면 40대 이상 점원을 늘리는 것으로 액션을 하면 전체 매장의 재구매율로 높일 수 있을까요?

본사에서는 데이터를 놓고 시나리오를 짜고 있을지도 모릅니다. 40대 이상에서 기혼자가 많고 아이를 키워 본 사람이 많으니 고객의 마음을 이해하고 적절한 상품을 추천하고 고객과의 유대관계를 발생시켜 다시 매장을 방문하게 만들 것이다. 이런 식으로 생각하고 더 검증하지 않고 상상을 펼치는 경영진에 의해 30대 이하의 점원을 40대 이상으로 바꾸려는 계획을 짜고 있을지도 모릅니다. 정말 그럴 수도 있지만 그렇지 않을 수도 있는 것인데 상관관계를 인과관계로 생각해서 임의로 전략을 수립하려고 합니다.

시내 1급지의 상권에 있는 매장은 상대적으로 30대 이하 점원이 높고 주거지 주변의 상권에서는 40대 이상의 점원이 많아 상권의 성격에 따른 재구매율 차이가 있을 수도 있지 않을까요? 시내는 계속 갈 수는 없으니 재구매율은 높지 않지만 집 근처에 있는 매장은 상대적으로 같은 고객이 자주 갈 가능성이 있어서 재구매율이 높다면 이것은 점원의 연령이 중요한 변수가 아닌 다뤄지지 않은 상권의 분류가 중요한 변수가 될 수 있습니다. 하지만 이런 깊은 고민은 시간과 효율, 무관심에 의해 다뤄지지 않는 경우가 많습니다. 막대한 점원의 교체로 성과가 기대만큼 나오지 않으면 오히려 이런 매장을 독려해서 매출을 더 만들자는 캠페인만 내부적으로 할 뿐이죠.

데이터 드리븐(Data-driven)한 문화를 만들기 위해서는 분석가도 비즈니스의 환경을 알고 현장에 있는 실무자도 데이터를 읽고 해석할 수 있는 능력을 같이 가지고 있어야 합니다. 과거 연역적 세계에게 전략을 기획한 사람들은 대부분 현장의 감각으로 돌이킬 수 없는 단방향의 실험만 했습니다. 그래서 실패를 해도 원인을 찾는 것이 힘들었죠. 사실상 다시 기회가 없을 만큼 너무 큰, 전체의 사업에 대해 전방위적 실험을 하고 사람이 경영을 잘했다는 겉치레로 성공의 원인을 파악하지 못하고 성공의 재반복을 이루지 못했습니다.

간단한 상관과 인과의 차이만 생각해봐도 변화할 수 있는 부분은 너무나 많습니다. 데이터를 다루는 기업의 누구나 생각해 볼 부분입니다.

keyword

매거진의 이전글설명할 수 있는 빅데이터시스템으로 만들기매거진의 다음글