우리는 정말로 데이터를 사용할 준비가 되어 있는가?
빅 데이터, 인공지능, 머신러닝이 핫한 단어인 지금 시대에, 많은 사람들이 인공지능과 빅 데이터(사실 빅 데이터가 무엇인지 나도 잘 모르겠다. 테라바이트 기준인가?)만 있으면 모든 사업이 잘 굴러가고, 성공을 할 것이라고 쉽게들 생각을 한다. 하지만, 데이터를 사용해서 일을 한다는 것, 그리고 사업을 한다는 것은 생각보다 쉽지 않다. 나는 데이터를 활용하는데 있어서 가장 큰 허들은 아래와 같다고 생각한다
돈과 시간이 있는가?
데이터가 있는가?
Product Management 가 효율적인가?
데이터를 활용하는 문화 인가?
데이터를 실제로 서비스에 녹여내기 위해서는, 생각보다 정말로 많은 금전적, 그리고 시간적 투자가 필요하다. 예를 들어서, 내가 어떤 회사에 데이터 분석가로 고용이 된다고 해보자. 그러면은 분석을 시작하기도 전에 아래와 같은 작업을 최우선 순위로 시작한다
회사에 어떤 데이터가 어디에 어떤 형식으로 쌓이고 있는지 조사한다
각 데이터의 ETL(데이터를 Extract, Transform, Load 하는 작업)의 히스토리가 어떻게 되고, 어떤 식으로 동작하는지 조사한다
각 데이터의 뜻과 한계, 부정확성을 조사한다
위의 사항들을 고려하여, 데이터를 분석하기 쉬운 환경을 만든다
보통의 경우 전사적 스케일로 위의 4가지 일을 실행한 기록 혹은 시도가 없기에, 내가 다 처음부터 끝까지 해야 하는 일이 발생한다. 그리고 위의 작업의 중요성을 설득하고 본격적으로 실행하는데 적어도 3개월이 걸린다. 그렇다. 끝내는 것도 아니고 실행을 하는데 한 분기가 걸린다는 것이다. 동시에, 위의 작업들은 서비스에 직접적인 영향이 없고, 또 결과가 눈에 확실히 보이지 않기 때문에, 사장 입장에서는 돈은 돈대로 들고 (데이터 관련 직종의 월급은 싸지 않다) 결과는 없어 보이는 현상이 일어난다. 결과적으로 데이터를 실제로 사용하기 위해서는 적지 않은 돈과 시간이 들어가게 된다
"데이터가 있는가?"에 대한 답은 3가지로 나뉜다
데이터가 없다, 그리고 남길 수도 없다
데이터를 남길 수 있지만 남기고 있지 않다
데이터를 남기고 있지만, 쓸 수 없을 정도로 부정확하다
1번의 경우, 정말로 어쩔 수 없는 문제이기에, 오히려 문제가 되지 않는다. 2번의 경우, 데이터를 어떤 형식으로 어디에 쌓을지 설계하고 try&error를 해보면서 수정해 나아가면 되기에 생각보다 시간과 노력이 들어가지 않을 수 도 있다. 물론 각 데이터의 특징에 따라 다르기는 하지만, 경험상 이런 프로젝트는 재미있다!
3번의 경우 수많은 삽질과 고통, 그리고 불화가 100% 확률로 만들어진다. 데이터를 이미 남기고 있다는 말은, 누군가가 데이터가 어떤 형식으로 어디에 쌓을지 결정을 했었다는 말이다. 하지만 이렇게 쌓인 데이터가 부정확하고, 동시에 이런 데이터를 서비스가 어찌어찌 돌아가고 있다는 말은, 이전의 히스토리와(보통 없다) 서비스와의 연관성(보통 조사해본 사람이 없다)을 모두 조사하고 이해한 후 데이터가 쌓이는 형식과 프로세를 고쳐야 한다는 것이다. 그렇데 이게 생각보다 쉽지 않다. 일단은 조사하기 위해서는 아래와 같은 분야에 대한 이해가 요구된다
프런트엔드
백엔드
사업구조
기획
위의 분야가 너무 많고 광범위하다고 생각할 수 있지만, 경험상 필요하다. 이유를 들자면, 보통의 경우 유저에 대한 분석을 위해 쌓이는 데이터는 다양한 부서와 서비스 기능들로부터 온다. 그렇기에 왜 특정 데이터가 잘못 쌓이고 있고 또 지금 쌓이고 있는 데이터의 형식 및 로직을 바꿀 경우 무엇이 일어나는지 알기 위해서는 프런트엔드와 백엔드를 전부 다 알고 있어야 하는 일이 생긴다
여기서 끝이 아니다. 분석을 위한 데이터가 쌓이고 있다는 말은, 기획 및 사업 부서에서 이 데이터를 기반으로 무언가를 모니터링하거나, 홍보하거나, 혹은 기획은 하고 있다는 말인데, 데이터를 더 정확하게 만든다는 말은, 기존 데이터를 기반으로 만들어진 것들이 다 박살 나버릴 수 있다는 말과 동일하다. 예를 들어서 사업 파트너들에게 우리 앱을 사용하는 유저들이 10만 명이라고 홍보했는데, 데이터를 더 정확하게 만들어보니 실제로는 1만 명이라는 사실이 드러날 경우에는 어떻게 할 것인가? 이러한 사항들을 기획 및 사업부서 들과 충분히 논의하고 설득하면서 진행해야 하기에, 회사의 사업 구조 및 기획에 대한 충분한 이해도 필요하다
위에서 말한 모든 고난과 역경을 해치고, 분석을 할 환경이 만들어졌다고 가정해보자. 그러면 이제 분석만 하면 되는가? 그렇지 않다. 데이터의 분석 결과는 생각보다 영향력이 크다. 분석의 결과는 진행되고 있는, 혹은 이미 완료된 기획을 바꾸고 삭제하는 일을 초래할 수 있는데, 이러한 기획 및 프로젝트의 변경이 빨리 일어나면 좋지만, 기술 부채가 해결되지 않은 회사의 경우 (보통의 많은 IT 회사들) 이미 만들어진 기능들을 변경시키는 일이 쉽지 않다 보니 분석 결과는 이미 나왔지만 실제로 서비스에 영향을 미치는데 굉장히 오래 걸리거나 (1개월 이상), 그냥 흐지부지 되는 경우도 많다.
그렇기에 PM(Product Manager - PM의 롤이 무엇인지는 아직 의견이 많다) 들이 얼마나 효율적으로 일하는지에 따라서 데이터를 사용하는 사람들의 가치가 급등 하기도, 급락하기도 한다. 그리고 보통 급락한다.
회사가 데이터를 활용하는 문화를 가지고 있는지의 여부에 따라서, 데이터를 활용하는 사람이 할 수 있는 분야가 정말로 많이 달라진다. 보통 데이터 분석가 혹은 사이언티스트를 고용하는 것은 회사 임원진의 결정으로 시작이 된다. "이제는 데이터의 시대이다! 그러니 데이터를 전문적으로 다루는 사람을 고용 하자!"라는 좋은 생각에서 출발 하지만, "그래서 고용해서 어떻게 쓸건대?"라는 것에 대해서는 매우 모호한 생각을 가지고 있다. "잘?"이라는 생각을 하지 않을까?
분석가는 분석의 결과를 줄 수는 있지만, 이런 분석 결과를 이해하고(표준 편차가 무엇인지 이해한다면 충분하다) 서비스에 실제로 적용하는 것은 기획자들이다. 그렇기에 기획자들이 데이터를 요청하고, 이해하고, 실행하려는 동기와 강력한 목표가 있다면 문제가 없지만, 보통의 경우, 이러한 프로세스를 데이터를 분석하는 사람이 설계하고 끌고 나아가야 하는 경우가 많다. 왜냐하면 대부분의 사람들이 데이터를 기반으로 한 프로세스에 많이 익숙하지 않기 때문이다. 개인적으로는 아래의 질문들을 기획자들이 자주 한다면 데이터 기반 의사결정 문화가 충분히 만들어져 있다고 생각한다
데이터로 무엇을 할 수 있는가?
무엇을 물어봐야 하는가?
결과를 어떻게 해석해야 하는가?
결과는 어떻게 도출이 되었는가?
그래서, 이 결과로 무엇을 해야 하는가?
데이터를 활용하는 것은 정말로 쉽지 않은 일이다. 수많은 생각과 노력, 그리고 실패가 섞이고 발효된 끝에야 그렇게 미디어에서 울부짖는 데이터 분석을 시작할 수 있게 된다. 당신의 회사는 어떠한가?