데이터 분석 알고리즘은 기계가 하지만 수작업으로 할 일이 너무 많다
필자는 데이터 분석을 업으로 한 지 20년 가까이 된다. 학부 때부터 박사과정 교수, 사업하며 다양한 프로젝트 데이터 분석을 했다. 빅데이터 분석, 머신러닝, AI등 다양한 이름으로 불리는 데이터 분석은 마치 모든 일을 컴퓨터가 알아서 해서 엄청 효율이 높고 만능일 것 같다. 하지만 경영자 입장에서 볼 때 고객 데이터 분석이 효율이 안나올 때가 많다.
첫째 데이터 분석가가 너무 비싸고 구하기 힘들다. 수백억 매출의 중견 기업도 데이터 분석가를 구할 수가 없다. 능력 있는 데이터 분석가는 억대 연봉에도 구하기 힘들다. 실무 경험이 거의 없는 대학생도 대기업, 중견 스타트업에서 졸업하자 마자 다 데려간다.
둘째 대학에서 실무에서 쓸 기술을 가르치지 않는다. 통계학과를 나와도 기본적인 데이터 분석 도구 소프트웨어를 다루는데 능숙하지 않다. R, Python으로 교수님이 준 코드만 돌릴 줄 알았지, 새로운 데이터를 어떻게 처리해서 분석할 줄 모르는 경우가 많다. 데이터 베이스에서 데이터를 뽑아낼 SQL언어를 모르는 경우가 태반이다. 실무에서 현업에서 쓸 수 있을 정도로 사수가 가르치던지 데이터 분석 학원에서 또 배워야 한다.
셋째 데이터 전처리에 분석 시간의 80%가 소요된다. 새로운 데이터를 주면 몇 주 몇달 씩 데이터 전처리 클리닝한다며 시간을 쓴다. 예를 들어 데이터가 비어 있을 때 어떨 때는 NA, 99, NULL 등 다양한 값으로 저장되어 하나로 통일해야 한다. 매우 만족은 10점 매우 불만족은 1점 등으로 데이터 저장값을 쓸 때도 있고 데이터 레이블 값을 써야 할 때도 있다. 2022-07-13 14:25:31는 "2022년 3분기 오후"로 바꾸어야 한다. 지역 정보가 정말 힘든데 "안양시"는 이 프로그램에서는 "Anyang"이고 Tableau에서는 "Anyang-si"이다. 일일이 매치해서 데이터 변전환해야 한다. 데이터 준비하는데만 시간을 그리 쓰니 원하는 분석 결과를 제 때 받을 수 없다.
넷째 데이터가 여러곳에 분산되어 있다. 고객 마케팅 데이터, 웹웹 접속 데이터, 제품 관련 데이터, 구매 결제 데이터데이터가 다 다른 데이터 플랫폼에 저장되어 있어 이를 한 곳으로 모으고 결합하는 것만해도 너무 일이 많다. 동일인 인증이 안되어 결합 자체가 어려운 경우도 많다. 예컨대 고객 만족도가 높은 고객들과 낮은 고객들의 고객이탈율에서 얼마나 차이가 있는지 알려면 설문 데이터와 행동데이터를 결합해야 하는데 설문에서 "홍길동"이 행동에서 "홍길동"으로 동일인인지 알기가 어렵다. 또한 종류, 변수가 너무 많다. 요즈음은 이를 자동화하고 도와주는 서비스들도 나와 좀 쉬워지긴 했지만 결합에 성공해도 DB에 테이블만 수십 수백개에 각 테이블마다 변수가 또 수십개씩 있다. 어디에 어떤 변수가 있고 이들을 어떻게 결합할 지 고민하는 것도 일이다.
다섯째 결과 분석을 다 사람이 해석하고 리포트를 한다. 경영자들이 통계 용어나 어떻게 해석해야 할 지 모르는 경우가 많기에 통계 결과를 사람이 알아들을 수 있게 번역을 다 해주어야 한다. 통계 결과를 구글 번역기처럼 통계 결과를 경영진이 이해할 수 있는 언어로 자동 번역해주면 좋겠지만, 간단한 분석조차 다 코딩해야 하는 R, Python에게 뭘 바라겠는가? 더 근본적인 문제는 데이터 분석 결과를 해석해서 실무에서 실제 행동을 취하려면 뭘 해야 할 지 감을 못잡는 경우가 많다. 데이터 분석가들은 마케팅, 세일즈, 개발 업무에서 무엇이 중요한 지 잘 모르는 경우가 많다. 서로 다른 부서와 회의를 하며 맞추어가야 한다.
소문난 잔치에 먹을 게 없다고 데이터 분석은 기대만큼 효율이 안나오는 경우가 많다. 필자는 이러한 문제점을 해결하고자 난 창업했고 데이터 분석에서 사람이 할 일을 줄이고 기계를 통해 자동화하는 작업을 10년째 하고 있다. 코딩, 통계 지식, 데이터 전처리 필요 없이 고객 데이터를 분석하는 자동화 솔루션을 서비스 하고 있다 (www.numberanalytics.com). 데이터 분석가가 아닌 일반 직원도 엑셀처럼 누구나 쉽게 쓸 수 있는 고객 데이터 분석 소프트웨어가 목표다.
데이터 연결이 핵심인데 미국 플랫폼 기업들은 여러 다른 기업들이 쉽게 API로 데이터 공유가 가능하도록 여러 기업에 오픈하고 있다. 필자의 회사도 앱 기반 스타트업들이 많이 사용하는 Amplitude 같은 앱웹행동데이터를 수집하는 플랫폼과 데이터 공유 파트너쉽 쉽을 추진하고 있다. 앞으로 여러 데이터를 한곳에 모아주는 서비스 CDP (Customer Data Platform)이라 불리는 Segment, mParticle, Tealium 같은 회사들이 있어 이를 활용할 계획이다. 한국의 개인정보법이 워낙 강화되어인지 몰라도 한국 플랫폼 기업들은 데이터를 서로 주고 받을 수 있는 방법이 별로 활성화되어 있지 않다. 데이터는 서로 공유하고 결합해야 가치가 높아진다. 앞으로 이부분은 법 제도 개선이 필요해 보인다.