brunch

You can make anything
by writing

C.S.Lewis

by 꽃비내린 Dec 17. 2023

문제정의의 기본은 데이터에 있다

공식을 넘어서는 데이터 마인드셋을 읽고서

들어가며

PM에게 중요한 역량 중 하나는 데이터 분석이다. 애석하게도 데이터 분석과 관련된 강의나 책에서는 SQL, 파이썬의 pandas 등을 다루는 방법, AB 테스트와 같은 실험 방법론에 집중되어 있다. 아마 이런 강의를 수많이 들었던 이들은 비슷한 상황을 겪었을 것이다.


강의에서 SQL 혹은 파이썬 코드를 알려주고 따라 써본다. 실행하니 결과가 괜찮게 나타나는 것 같다. 이제 실무에서 적용해 볼 자신이 생겼다. 어라. 막상 우리 회사에서 데이터를 분석하려고 하니 원하는 데이터가 없다고 한다. 어찌어찌해서 데이터를 쌓아서 데이터를 추출했는데 이 결과가 무슨 의미인지 모르겠다.


이런 흐름까지 오게 되면 결국 분석을 포기하고 관성적으로 일해온 방식대로 하게 된다. 뭐가 문제였을까.


문제는 데이터를 다루는 사고방식이 바뀌지 않은 데 있다.


데이터 리터러시의 3단계

데이터 리터러시의 단계를 세 단계로 나눴을 때  다음과 같이 정의해 볼 수 있다.


1단계) SQL 등 기본적인 쿼리나 연산을 할 줄 안다.

2단계) 비즈니스 모델을 이해하고 그에 맞는 기업의 중요한 후행 지표와 이 지표를 움직이는 선행 지표를 이해한다.

3단계) 데이터가 정제되지 않고, 누락된 환경에서 분석환경을 구축하고 분석이 용이한 형태로 정제한다.


데이터 분석 강의와 책이 1단계 수준에 머무는 것을 탓할 수만은 없는 게 결과물을 빨리 얻을 수 있고, 그럴듯하게 배웠다는 느낌을 주기 쉽기 때문이다. 다만 도구를 배우더라도 활용할 줄 모르면 무용지물이다. 잘 정제되고 충분히 갖춰진 데이터 셋이 있는 환경이 아니라, 실시간으로 제품의 방향성이 바뀌고 이를 따라가지 못하는 분석 환경 속에서 데이터 중심의 사고를 하기 위해선 데이터 중심의 사고가 무엇인지 아는 게 중요하다.


공식을 넘어서는 데이터 마인드셋이란 책은 1단계에서 벗어나 2단계로 접어드는 사람에게 필요한 지식을 담고 있다. 1단계에 해당되는 강의나 책들은 시중에 이미 많이 나와 있다. 우습게도 한때는 파이썬의 판다스 코드를 몇 개를 돌려본 걸로 고급 분석을 할 줄 안다는 우쭐함이 있었다. 지금 생각해 보면 몇 시간 강의를 몇십만 원을 줄 만큼 가치가 있었던 것 같진 않다. 그저 몇 줄의 코드로 화려한 차트가 생겨나는 것이 신기해 본질을 놓친 게 아닌가 싶다.


데이터 분석은 SQL 쿼리나 코드를 잘 짠다고 해서 할 수 있는 게 아니기 때문이다. 회사의 비즈니스 모델과 제품을 운영하면서 축적된 데이터베이스 구조를 이해하는데서 시작해야 한다.


데이터 분석적 사고란

책에서는 데이터 분석의 출발점은 데이터 그 자체로는 아무 의미가 없다는 사실을 받아들이는 것이라고 역설적으로 얘기한다. 예쁘게 파이 차트를 그려봤자 이 차트에서 어떤 비즈니스 성장을 이끌어낼 인사이트를 얻지 못한다면 그 정보는 쓸모가 없는 것이다.


우리 서비스가 가진 데이터는 무엇인지를 파악하고, 회사가 현재 나아가려는 비즈니스 목표를 먼저 이해하는 것이 올바른 순서이다. 가령 이커머스 플랫폼에서 월 매출액을 높이는 것이 중요한 비즈니스 목표라고 해보자. 매출액에 영향을 미치는 것을 쪼개보면 결제자 수 × 객단가로 나눌 수 있다. 여기서 도출한 숫자만 보면 무엇이 문제인지 알 수 없다. 전월 대비, 전년 동기 대비와 같이 기간을 비교해서 추이가 떨어지는지 올랐는지를 살펴보거나, 혹은 동종업계 평균과 비교해 높은 수준인지 낮은 수준인지를 판단하면 문제를 쉬이 도출할 수 있다.


만약 결제자 수가 감소 추세라면 결제자 수에 영향을 미치는 요소를 또 쪼개볼 수 있다. 신규 가입자 수가 준 건지, 가입부터 결제까지 퍼널에서 이탈이 많은지 등을 살펴볼 수 있겠다. 이렇게 각각의 요소를 확인하기 위해 데이터를 추출하고 확인하는 것이 데이터 분석적 사고이다.


핵심 지표 확인하기

회사의 비즈니스 모델과 데이터 구조를 이해했다면 다음으로는 우리가 방향대로 잘 가고 있는지 판단할 수 있는 기준점이 필요하다. 제품이 수익을 내는 방식과 카테고리 그리고 얼마나 자주 이용하는지 등에 따라 봐야 할 지표가 매우 다르다. 이 책에서 경영 지표, 서비스 지표 등으로 구분해서 자주 사용하는 지표들을 정리해 놓고 있어 지표에 익숙하지 않은 실무자에게 첫 시작으로 참고해 보면 좋을 것 같다.


지표를 볼 때 유의할 점은 허영 지표와 좋은 지표를 구분하는 것이다. 뉴스 기사에서 종종 누적 거래액, 누적 다운로드 수, 누적 가입자 수 등을 보게 된다. 이는 대외적으로 서비스의 규모와 성장성을 알리는데 유용하나 제품을 개선하는 데는 도움이 안 된다. 누적 지표는 시간이 갈수록 상향 곡선을 그리게 되기 때문에 앞으로 뭘 해야 할지 알려주지 않는다.


지표만 봐서는 이 수치가 좋은 건지 모호할 때가 많은데, Lennysnewsletter와 린 분석 등에서 제공하는 산업의 평균 수치를 참고해서 현재 지표가 좋은지 개선이 필요한지를 판단하는 것을 권장한다.


이 책은 실무자로서 데이터 분석에 갖춰야 할 기본적인 마인드셋을 중심으로 구성되었기 때문에 SQL 등 쿼리 작성법이나 분석 환경을 세팅하고 데이터를 정제하는 등의 내용은 아쉽게도 다루고 있지 않다. 따라서 어느 정도 쿼리를 다룰 줄 알지만 실무에서 어떤 데이터를 어떻게 봐야 할지 어려워하는 분이라면 읽어보길 추천드린다.


* 이 글은 저자로부터 도서를 지원받아 작성한 솔직한 후기입니다.







브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari