2부. 데이터를 분석하는 습관 : 셀프서비스 데이터 분석
왜 내가 데이터를 분석해야 하지?
2015년 가트너(Gartner, Inc.)에서 발표한 ‘신기술 하이프 사이클(Hype Cycle)’에서 ‘시민 데이터 과학(Citizen Data Science)’이 처음 등장한 후 데이터 분석에 대한 현실적인 관심이 높아지기 시작했다. 전문 데이터 과학은 과학적 방법, 프로세스, 알고리즘 및 시스템을 이용하여 데이터에서 가치를 도출한다. 데이터 과학자는 데이터 분석을 위한 전략 개발, 데이터 준비, 데이터 탐색, 분석 및 시각화, R 및 파이썬(Python)과 같은 프로그래밍 언어를 사용하여 모델을 구축한다. 이런 전문 데이터 과학은 전문적인 학습과 숙련이 되지 않은 현업 실무자가 할 수 있는 업무가 아니다.
하지만 현업에서는 수시로 데이터를 활용해야 하는 이슈가 등장한다. 이럴 때마다 전문 데이터 과학자에게 요청하고 결과를 기다리는 데는 많은 한계가 노출되면서 ‘시민 데이터 과학자(Citizen Data Scientist)’에 대한 관심이 높아지고 있다. 수학 또는 통계에 대한 깊은 지식은 없지만 내가 속한 업(domain, field, 산업)에 대한 지식을 바탕으로 데이터 과학의 원리를 일부 적용하여 업무를 하는 사용자를 지칭한다. 가트너는 수년간 시민 데이터 과학자 수가 정규 데이터 과학자보다 5배가량 빠르게 증가할 것으로 전망했다.
전문가가 분석하던 업무의 일부를 현업 실무자가 스스로 분석하는 시대에 접어든 것이다. 현업에 있는 우리는 모두 데이터 과학자까지는 아니더라도 적어도 데이터 분석가는 되어야 한다. 국내 상황에 맞추어 표현하면, 현업에서 구술을 꿰어 보배로 만드는 ‘현업 데이터 분석가’가 절실히 요구되는 시점이다. 현업에서 스스로 데이터 분석을 통해 통찰을 얻고 바로 실행에 옮기는 실무자들이다. 이것이 가능하게 된 것은 셀프서비스 분석 도구들이 많이 등장했기 때문이다.
셀프서비스 데이터 분석의 기술
데이터 분석은 요리와 비슷하다. 신선한 식재료를 구하고 적절한 조리도구를 사용해서 조리할 때 맛있는 음식이 된다. 마찬가지로 좋은 분석 결과물을 얻기 위해서는 재료인 데이터를 수집하고 적절한 분석 도구를 선택하여 분석해야 한다. 그리고 데이터 분석을 제대로 하려면 데이터 수집이 잘 돼야 하고, 데이터를 잘 수집하려면 분석의 목적이 분명해야 한다. 즉, 데이터 분석의 목적과 수집과 분석은 일련의 연결된 프로세스로 인식하고 분석 업무를 해야 한다.
데이터에는 정형 데이터(고객 수, 판매량 등)와 비정형 데이터(텍스트, 위치 정보, 사진, 동영상 등)가 있다. 데이터의 유형에 따라 데이터 분석 방법도 정형 데이터 분석(빈도 분석, 회귀분석, 데이터 마이닝 등)과 비정형 데이터 분석(텍스트 마이닝, 소셜 분석 등)이 있다. 분석 과정에서 통찰을 얻고 통찰의 결과를 바탕으로 실행에 옮길 때 새로운 가치를 만들 수 있다. 데이터 분석을 통해 매출 증가, 수요 예측, 리스크 경감, 평판 개선, 신제품 개발, 이직률 개선 등 다양한 분야에서 가치를 창출할 수 있다.
내게 맞는 데이터 분석의 수준
데이터 분석에도 수준이 있다.
첫 번째 수준은 문제의 중요도 인식을 위한 분석으로 탐색 혹은 기술 분석(Descriptive Analysis)이다. 어떤 문제가 일어났는지 혹은 일어나고 있는지, 또는 일어날 것인지, 그리고 그 문제가 정말로 살펴봐야 할 문제인지 등을 탐구하는 분석 단계다.
두 번째 수준은 문제 전개 과정의 규명으로 인과 혹은 예측 분석(Predictive Analysis)이다. 왜, 어떻게 문제가 일어났는지, 일어나고 있는지, 일어날 것인지, 그리고 그 문제의 원인-결과는 어떻게 되는지를 파악하는 분석 단계다.
세 번째 수준은 문제 처리 방안의 도출을 위한 분석으로 최적 혹은 처방 분석(Prescriptive Analysis)이다. 어떻게 문제를 변화시킬 것인지, 문제를 원하는 결과로 변화시키는 조건 혹은 조치는 무엇인지를 밝히는 분석 단계다.
현업 실무자는 셀프서비스 데이터 분석으로 최소한 첫 번째 수준인 탐색 혹은 기술 분석까지는 기본적으로 분석할 수 있어야 한다. 그리고 두 번째 수준인 인과 혹은 예측 분석을 할 수 있도록 노력해야 한다. 세 번째 수준인 최적 혹은 처방 분석에 도전하기 위해서는 전문적인 학습과 연습이 필요한 부분이다.
셀프서비스로 데이터 분석의 기술을 익히려면,
첫째, 많은 숫자 속에서 원인과 결과를 찾아내는 것에 관심을 가져야 한다.
둘째, 변수와 변수 간의 연관성을 찾아내야 한다.
셋째, 데이터 홍수 속에서 진짜 의미를 찾아내기 위한 과감한 도전이 있어야 한다.
넷째, 현명한 의사결정 정보를 얻기 위해 항상 문제를 먼저 정의하고 분석적 사고를 해야 하며 나의 가설을 지지할 데이터를 갖고 있어야 한다.