brunch

You can make anything
by writing

C.S.Lewis

by 여행하는 기획자 Nov 13. 2022

데이터 분석의 꽃은 바로 이것

기획자의 데이터 공부

한때 프랑스에 쥐가 엄청나게 출몰했었다고 한다. 프랑스 정부는 쥐들을 퇴치하기 위해 엄청나게 골머리를 앓았다고 한다. 급기야 일반 시민들에게 쥐꼬리를 갖고 오면 포상금을 주는 정책까지 선포하게 된다. 그 결과는 어떻게 되었을까? 예상과는 다르게 오히려 쥐가 어마어마하게 늘어났다고 한다. 사람들이 포상금을 받기 위해 일부러 쥐를 사육했기 때문이다. 결국 근본적인 원인을 해결하지 않아 문제만 더 커지게 되었다.


결국 가장 중요한 것은 무슨 문제인지 근본적인 원인을 파악하는 것이 핵심이다. 프랑스의 근본적인 당면 과제는 '어떻게 하면 쥐 없이 쾌적한 환경에서 살 수 있을까?"일 것이다. 대전제를 잊고 방법에만 집중을 한다면 이상한 방향으로 전개가 될 수 있다. 프랑스 사람들이 바보라서 이런 해결책을 낸 것일까? 나는 그들이 바보라서 말도 안 되는 설루션을 제기했다기 보단 눈에 보이는 가시적인 성과를 만들기 위해 설루션을 '쥐꼬리 개수'로 정량화하여 만들었다고 생각한다. 제3자의 눈으로 볼 땐 우스운 이야기겠지만 현실에서는 생각보다 이런 일들이 꽤 많이 일어난다. 당장 데이터 분야를 담당하는 나조차 빠르게 보여줘야 할 때는 근본 문제를 생각하기 전에 데이터부터 들여다보는 오류를 범할 때가 많다. 



오류가 반복되는 이유

모든 게 연결되고 있는 세상 속에서 데이터가 무한대로 공급되고 있다. '데이터'가 사람들의 흔적이 되면서 '데이터 드리븐'이라는 용어가 유행처럼 번지고 있다. 데이터가 황금 치트키가 되어 사람들이 원하는 것을 알려주고 전달해줄 수 있으리라는 기대가 커지게 된 것이다. 하지만 데이터 업의 특성상 자원이 투자되면 바로 성과로 이어지는 성격이 아니다. 가시적인 성과가 나오려면 문제정의부터 시계열적 특성이 보이기까지의 시간이 필요하다. 다른 업무 대비 엄청난 데이터의 양에 따라 처리하는 사람 역시 많아지지만 아웃풋은 바로 성과로 이어지기 어려운 성격인 셈이다. 


하지만 비즈니스는 천천히 기다려주질 않는다. 당장 1분기, 올해의 성과를 보여줘야 한다. 그러다 보니 빠르게 성과로 보여줄 수 있는 것에 집중하게 된다. '데이터'만 바라보게 되는 것이다. 데이터를 시각화하여 보여주거나, 클러스터링을 분석해서 보여주는 것이다. 이렇게 데이터를 수집하고 분석하면 뭐라도 결과는 나오기 때문이다. 데이터를 기반으로 커뮤니케이션을 하기도 보기가 좋다. 하지만 역설적이게도 이 지점에서 오류가 발생하는 일도 심심치 않다.




데이터만 보면 안 된다는 걸 알면서도 데이터만 바라보는 이유

누구나 데이터는 도구이고 문제를 정의하는 것이 먼저 선행돼야 하는 점은 알고 있다. 그런데  그걸 건너뛰거나  못하고 데이터만 보게 되는 것일까?  이유는 어렵기 때문이다. 데이터를 분석하는데  많은 자원이 투자된다. 데이터로 풀고자 하는 문제가 과연 자원이 투입될만한 가치가 있는가?라는 점은 설득하기가 어렵다


하지만 데이터만 봐서는 근본적인 문제를 해결하기가 점점 더 어려워진다. 특히 인과관계를 유추하기가 매우 어려워진다. 난 요즘 새벽에 종종 깨는 문제가 있다. 이런 문제를 해결하기 위해 나의 현존하는 라이프 데이터를 돌려봐도 설루션을 찾기 어렵다. 취침 시간, 자기 전 뒤척이는 시간, 이동거리 등등을 종합했을 때 Fact 데이터로는 단편적인 결과가 나오기 쉽다.  내 심리적인 '불안'이라는 키워드와 연결이 안 될 것이다. 5개월 전 내가 친한 친구 문제로 병원에 있으면서 느낀 두려움과 슬픔이 원인이라면 데이터로 원인을 잡아낼 수 있을까? 5개월 전, 1년 전의 트라우마가 영향이라고 판단하기엔 비약이라고 생각하지 않을까 싶다. 아니 그만큼의 데이터를 수집하는 것부터 한계에 부딪힐 확률이 높다. 



데이터의 꽃은 가설 검증

결국 데이터만 열심히 봐서는 문제가 해결될 확률이 낮다. 그보다 어떤 문제를 해결하고 싶고 지금 당면한 목적을 먼저 정의하는 것이 필요하다. 목적을 세팅하면 '어떻게'에 대한 방법들이 나온다. 

 

'운동을 열심히 해서 튼튼한 사람이 되자.'

'브런치에 글을 꾸준히 쓰자.'


[목적 : 운동을 열심히 해서 튼튼한 사람이 되자]

가설 1. 회사 업무가 적은 날에는 운동을 할 것이다.

- 회사 업무 패턴 분석

- 회사 업무 시간과 운동 참석 횟수의 상관관계 분석 


[목적 : 브런치에 글을 꾸준히 써서 지적으로 성장하자]

가설 2. 수면의 양이 부족한 날에는 글을 안쓸 것이다.

- 수면 패턴 분석

- 수면과 집필과의 상관관계 분석


이런 목적들이 설정되면 문제들이 따라 나온다. '어떻게 하면 운동을 할 수 있을까.' 혹시 회사 업무가 힘들어서 운동을 못하는 것일까? 운동 종목이 이상해서 운동을 못하는 것일까? 운동하는 친구가 없어서 운동을 못하는 것인가 등등에 대한 방법들이 줄줄이 이어 나온다. '어떻게'에 해당되는 것이 가설로 만들어지는 것이다.  가설 하나하나는 데이터 분석을 하는 이유이자 당면한 문제를 해결하는 지휘봉이 된다. 아래와 같이 가설 1에 따른 분석들이 나오게 되면서 설루션을 찾아나갈 수 있게 된다. 


문제의 정의 없이, 별다른 가설 없이 데이터만 분석하게 된다면 '왜 이것을 하는 거지?'라는 질문에 부딪히게 된다. 그래서 늘 문제와 가설로서 데이터를 재 프레임화를 시켜 나가는 게 필요하다. 데이터 자체는 아무 말이 없기 때문이다. 데이터가 많아질수록 역설적이게도 데이터를 다루는 방법들은 혼란스러워지고 있다. 결국 데이터 분석을 잘하기 위해서는 데이터 그 자체를 보는 게 아니라 가설 검증을 설정하는 것이 아닐까 생각해본다. 그럼 다음 편에서는 어떻게 하면 데이터 분석의 꽃인 가설을 잘 만들 수 있을지를 고민해봐야겠다. 


매거진의 이전글 데이터 마이닝, 머신러닝 이런 게 다 무엇이라고
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari