1부. 데이터를 읽고 쓰는 습관 : 데이터 리터러시
도대체 뭐가 문제야
빅데이터를 가지고 있는데 이것을 어떻게 사용해야 할지 모르겠다는 기업이 있다. 반대로 연일 뉴스에서 빅데이터 관련 이야기를 듣게 되는데 그런 데이터가 없어서 걱정이라는 기업도 있다. 데이터가 있어도 걱정, 없어도 걱정이 앞서는 시대에 데이터를 전문적으로 다루지 않는 임직원들은 가시방석에 앉아 있는 기분이다. 젊은 직원들은 그나마 R이나 파이썬과 같은 데이터 분석 도구를 배울 기회와 능력이 어느 정도 있다. 하지만 컴퓨터도, 인터넷도, 스마트폰도, 별도로 사용방법을 배웠던 임원들은 불안할 수밖에 없다. 특히 의사결정을 하는 과정에서 데이터를 적극적으로 활용하라는 지시를 받은 상태다. 기본적으로 데이터가 가지고 있는 의미도, 수집하고 분석하는 방법도, 그리고 그 결과를 활용하여 통찰하는 방법도 익숙하지 않았던 아날로그 세대에게는 디지털로 전환되고 있는 경영 환경에서 데이터와 관련된 스트레스가 커지고 있다.
데이터 리터러시 즉, 데이터를 수집하고 분석하고 해석하는 역량에 한계가 있어서 업무에 애로가 생기는 상황이다. 이런 현상은 데이터에 집착하기 때문이다. 특히 의사결정을 해야 하는 임원들은 익숙하지 않은 디지털 환경에서 데이터 과학자들이 전문적인 용어와 분석 방법으로 빅데이터를 설명하는 장면을 보면서 한계를 느끼는 것이다. 실무자들 역시 이 부분은 임원들과 다름이 없다. 그런데 잘 한번 생각해 보면 이는 앞뒤가 바뀐 것이다. 데이터와 데이터 분석이 필요한 이유는 우리가 가지고 있는 어떤 문제를 해결하기 위한 것이다. 데이터 분석만을 위해 데이터가 필요한 것이 아니다. 데이터와 관련해서 보면 수단과 목적이 뒤바뀐 것이다.
비즈니스 환경은 끊임없이 새로운 의사결정이 기다리고 있다. 일상적인 의사결정은 자동화되어 있기도 하지만 중요한 의사결정은 아직 대부분 의사결정자의 의사결정에 의해 이루어진다. 이때 데이터의 도움을 받으면 보다 쉽게 통찰할 수 있고 오류를 줄일 수 있다는 생각으로 데이터를 먼저 찾는다. 우리가 데이터를 가지고 있으면, 데이터에서 멋진 통찰을 할 수 있을 것이라고 기대를 하게 된다. 과연 그럴까? 혹은 데이터가 없기 때문에 통찰을 하지 못한다는 불평을 하며 책임을 회피하고 싶어 한다. 이 경우에 데이터를 제공하면 멋진 통찰을 할 수 있을까?
중요한 것은 데이터가 아니라 해결해야 할 문제다. 문제가 무엇인지 정의하는 것이 먼저다. 예를 들어, 시장에 수많은 스낵이 있고 여러 회사에서 치열하게 경쟁을 하고 있다. 서로 점유율 싸움을 하는 완전경쟁시장이다. 그런데 우리 회사에 새로 부임한 사장은 시장을 확대하고 매출을 증대하고 싶어 한다. 여기서 문제는 무엇일까? 경쟁이 문제일까? 점유율이 문제일까? 시장을 확대하고 매출을 높이고자 한 사장의 방침이 문제일까? 아니면 데이터가 없는 우리 회사의 시스템이 문제일까?
문제의 본질을 정확하게 정의하는 것이 무엇보다 중요하고 먼저 고민해야 진짜 문제를 해결할 수 있다. 여기서 문제는 경쟁이 치열하지만 정체된 스낵시장을 돌파할 새로운 제품이 없다는 점이다. 데이터는 이 문제를 해결하는데 필요한 많은 요소들 중 하나일 뿐이다. 회사 내부에는 매출 데이터도 있고, 과거 진행했던 시장조사 데이터도 있고, 관능조사(맛 테스트)의 결과도 있다. 아직 신제품 관련 조사를 한 적이 없기 때문에 직접적인 데이터는 당연히 없다. 이 시장에서 우리는 선발자도 아니고 시장지배력을 가지고 있는 것도 아니다. 그동안 여러 번 신제품을 만들어 보기도 했지만 실패를 많이 해서 선뜻 나서는 마케터가 없다. 여러분이 의사결정자라면 이러한 상황을 돌파하기 위해 무엇을 할 수 있을까?
다른 예를 하나 들어 보자. 정부나 지방자치단체에서 비무장지대(DMZ)가 현재 어떤 이미지가 있고 앞으로 어떤 브랜드가 되면 좋을지 궁금해하고 있다. 이 가정은 일반기업에서 브랜드의 이미지나 브랜딩을 위해 궁금해하는 상황과 동일하다. 문제가 무엇일까? DMZ에 대한 브랜드 연구를 위해서는 우선 문제를 명확하게 해야 한다. DMZ를 관광목적지 브랜드로 규정하고 관광목적지를 찾고자 하는 이해관계자들의 인식 속에 어떤 이미지가 형성되어 있는지 그리고 브랜드 정체성으로 어떤 가치요소를 고객의 인식 속에 구축해야 차별적인 포지셔닝이 되는지를 알아야 한다. 즉 DMZ의 이미지와 브랜드 정체성 요소를 파악하는 것이 연구의 문제가 된다. 이를 바탕으로 강력한 브랜드를 구축하는 데 도움이 되는 자료를 만드는 것이 연구의 목적이 된다.
데이터는 어디에 있지
먼저 스낵시장에 대한 데이터는 어디에 있을까? 정체된 시장을 돌파하기 위한 전략으로 차별화된 신제품을 개발하여 고객에게 새로운 가치를 제안하고 이를 통해 스낵시장에 새로운 바람을 일으키기 위해서는 시장의 특성을 정확하게 이해해야 한다. 스낵시장에서 기업들은 어떤 종류와 맛으로 시장을 나누고 있는지 고객은 이러한 구분에 동의하는지 아니면 원하는 제품이 없어서 마지못해 기업이 제안하는 제품을 구매하고 있는지 파악해야 한다. 이를 위해 스낵의 맛지도를 만들면 어떨까?
스낵시장을 맛으로 구분하기 위해서는 제품 범주별로 어떤 맛이 있는지 알아봐야 한다. 우리 회사에서 생산하는 제품만이 아니라 시장에서 판매되고 있는 전체 제품에 대한 분석이 필요하다. 이 문제를 해결하기 위한 데이터는 우리 회사 내부보다는 실제 시장에 있다. 시장조사가 필요한 이유이다. 슈퍼나 마트나 편의점 등에서 기초적인 데이터를 수집하고 제조사별 판매액을 수집하거나 추정하여 범주별 맛의 비중을 계산하여 정리하면 하나의 표나 그림이 완성된다. 표본조사가 적합하다. 이때 데이터는 현재의 시장을 그대로 보여줄 수 있는 실제 시장에서 수집하고 일부 2차 자료를 찾아서 보완할 수 있다.
그렇다면 DMZ에 대한 이미지를 파악할 수 있는 데이터는 어디에 있을까? 대체로 DMZ를 알고 있거나 방문한 경험이 있는 사람들은 DMZ라고 하면 전쟁, 분단, 북한, 군인, 평화, 생태 등 여러 단어를 제시할 수 있을 것이다. 그런데 이를 구체적으로 확인하려고 하면 이런 데이터를 수집해 놓은 곳을 찾기 어렵다. 일반적인 사람들의 인식 속에 어떤 단어들이 들어 있기는 한데 우리가 직접 조사를 하지 않으면 원시 데이터(raw data)나 분석된 결과를 얻을 수 없다. 정책을 추진하는 차원에서 본다면 구체적인 결과물이 아닌 상상의 단어를 근거로 의사결정을 할 수는 없다. 이럴 때 가능한 데이터는 구조화된 설문조사를 통해 직접적으로 수집하는 1차 자료이다.
그리고 온라인상에 있는 소셜미디어나 뉴스에서 언급되는 단어를 수집하여 텍스트 마이닝에 의한 빅데이터 분석으로 이미지를 파악할 수도 있다. 네이버 뉴스 검색의 결과를 RSS 피드로 엑셀의 파워 쿼리를 이용해 크롤링할 수 있다. 또는 빅카인즈에서 뉴스 검색을 할 수 있으며 특정의 조건을 설정하여 필요한 데이터 중심으로 크롤링할 수 있다. 크롤링한 결과는 엑셀 파일 형태로 저장할 수 있어서 다음 분석에 활용할 수 있다. 경우에 따라서는 구글 트렌드 같은 빅데이터 분석 사이트에서 어떤 단어로 검색을 했는지에 대한 빈도와 연관어 등을 알 수 있는 서비스를 제공받을 수도 있다.
따라서 데이터는 그냥 있는 것이 아니다. 이것을 아는 것이 중요하다. 문제를 해결할 수 있는 적절한 데이터를 필요한 양만큼 수집해야 한다. 물론 구매 이력 데이터나 고객 행동 데이터와 같이 실시간으로 시스템에 의해 자동으로 수집되는 데이터도 있다. 이 데이터는 데이터 마이닝을 통해 구매 확률을 계산하여 다음 프로모션에 활용하여 보다 높은 매출 성과를 올릴 수도 있다. 즉, 어떤 문제가 있다면 그 문제를 해결할 수 있는 데이터는 따로 있으며 필요에 따라 가장 적합한 데이터를 수집해야 한다. 데이터가 있어서 분석하는 것이 아니라 비즈니스의 문제를 해결하기 위해서 필요한 데이터를 수집하고 수집된 데이터를 분석하는 것이다.
왜 통계를 들먹이는 거야
연말이 가까워지면서 기업의 임원들은 지난 1년간 투자한 마케팅 비용에 대비해서 제대로 마케팅 활동을 했는지, 그 성과가 어떤지 궁금해한다. 마케팅 성과 지표로 매출액과 이익을 기준으로 분석하기도 한다. 광고도 하고 판촉도 하고 이벤트도 하고 가격 할인도 한다. 그런데 이런 활동들이 과연 투자 대비 효과(ROI)가 있는지 궁금한 것이다. 그리고 대부분의 기업에서는 핵심성과지표(KPI) 중에서 고객 추천 지수(NPS)와 고객 만족도(CSI)를 매우 중요하게 관리한다. 우리 회사를 추천하는 추천 의향률과 고객의 만족 정도를 매년 1회 이상 설문조사를 통해서 조사하고 그 결과를 바탕으로 NPS와 CSI를 산출한다. 나름 체계적인 마케팅 성과 시스템을 구축되어 있다. 그런데 갑자기 의문이 들기 시작했다. 마케팅 예산을 전년 대비 대폭 증액을 했는데 목표한 매출액과 이익을 내지 못하고 있다. 최고경영자가 마케팅 ROI를 구해서 원인을 찾아오라고 한다. 마케팅 성과가 기대한 만큼 나오지 않은 원인이 무엇일까? 어떻게 하면 원인을 찾아 문제를 해결할 수 있을까?
그럼 마케팅 성과와 통계는 무슨 관계일까? 통계를 몰랐어도 지금까지 데이터를 보는데 문제가 없었다. 과연 그럴까? 단순하게 보면 투자 대비 수익인 마케팅 ROI는 쉽게 계산이 된다. 수익에서 투자금을 빼고 이 금액을 투자금으로 나누어 주면 된다. 문제는 수익이다. 어떤 금액을 수익으로 볼 수 있느냐 하는 것에서 논쟁이 많이 일어난다. 마케팅 부서에서 관리하는 금액으로 영업이익이 있다. 영업이익은 매출이익에서 판매와 관리비를 빼준 값이다. 판매와 관리비는 대체로 마케팅 비용이라고 할 수 있다. 일견 타당한 것 같지만 순이익이 아니기 때문에 과대 계산될 여지가 높다. 만약 수익을 특정할 수 있다면 마케팅 ROI를 계산하는 것은 쉬운 일이다. 상대적인 비교가 가능하기 때문에 매우 유용한 지표가 된다. 그러나 실제 마케팅 활동에 대한 수익을 추정하기 어렵기 때문에 아직도 지표로 활용되기에는 제약이 많다.
여기에 매출에 영향을 미친 변수로 무엇이 있는지 살펴봐야 한다. 광고, 판촉, 이벤트, 가격 할인, 그리고 신제품 수, NPS, CSI 등 많은 변수들이 매출에 영향을 미칠 수 있다. 이 영향력을 정확하게 추정해야 어떤 마케팅 활동을 할 때 단위당 효과가 극대화되는지 알 수 있다. 이를 추정할 수 있는 방법으로 민감도 분석이 있다. 통계분석은 회귀분석을 사용한다. 종속변수인 매출액에 영향을 미치는 독립변수에 따라 단순회귀분석 혹은 다중회귀분석을 사용한다. 회귀계수를 구하여 독립변수의 영향력을 바탕으로 어느 변수가 더 많은 영향을 미치는지 파악할 수 있다.
여기에 필요한 데이터는 어디에 있을까? 제품별 혹은 품목별 매출액은 재무팀에 있고, 신제품 수는 마케팅 팀에서 관리하고, 광고와 이벤트 비용은 프로모션 팀에서, 판촉과 가격 할인은 영업팀에서, 그리고 NPS와 CSI는 고객만족팀에서 주로 관리하고 있다. 사내에 흩어져 있는 데이터를 수집하고 모델링을 해야 하는 마케팅 성과 분석 담당자는 통계에 대한 이해 없이 분석할 수 없다. 이 결과를 받아 든 관리자나 임원들 역시 기본적인 통계를 알아야 의미를 해석할 수 있다. 단순하게 이야기해서 다중회귀분석을 하려면 독립변수들 간에 상관이 없어야 하고(다중공선성), 종속변수와 독립변수는 계량 자료여야 하며, 민감도 분석을 위해서는 각 변수에 대해 최소한의 표본수를 가지고 있어야 한다. 더 중요한 부분은 독립변수를 무엇으로 할지와 그에 따른 독립변수의 측정값을 모두 가지고 있어야 한다는 점이다.
만약 고객 만족도와 고객 추천 의향률 간에 어떤 관계가 있는지 궁금하다면 이 두 변수 간에는 상관관계가 있는지 확인해야 한다. 상관 분석이 필요하다. 상관 분석의 통계치로 상관계수를 구하게 되며 상관계수가 0.5 이상이면 상관이 있다. 만약 두 변수 간의 상관계수가 0.7 이상이면 강한 정의 상관이라고 한다. 즉, 만족도가 높아지면 추천 의향도 높아지는 것으로 판단할 수 있다.
그리고 추천 의향률이 연령 집단에 따라 차이가 있는지 알아보기 위해서는 분산분석(ANOVA)을 통해 집단 간 평균 차이를 검증해야 한다. 만약 분산분석을 통해 구한 P값(p-value)이 0.042가 나왔다면 유의 수준(p <0.05) 값보다 작기 때문에 집단 간에 차이가 없다는 귀무가설을 기각하게 된다. 즉, 유의 수준 5%(신뢰 수준 95%)에서 연령 집단에 따른 추천 의향에 차이가 있다는 결론에 이르게 된다. 최소한 기초적인 통계치를 이해하고 측정 척도와 분석방법을 알고 있어야 제대로 의사결정에 반영할 수 있다.
데이터에 대한 실질 문맹률을 낮추는 첫걸음
디지털 시대에 데이터를 기반으로 비즈니스를 전개하는 것은 너무나 당연한 흐름이다. 처음 적응하는데 어려움이 있지만 조금만 있으면 데이터로 문제를 해결하는데 익숙해진다. 한국인의 문맹률(illiteracy)은 세계에서 최저 수준이다. 거의 제로에 가깝다. 그러나 OECD(경제협력개발기구)의 문해력 보고서에 따르면 한국인의 '실질 문맹률'은 75%로 OECD 22개 국가 중 최하위 수준이다. 문자는 읽지만 문장의 의미를 이해하지 못하는 것이다. 디지털 시대에는 여기에 데이터 문맹률도 걱정해야 한다. 데이터를 읽을 수는 있지만 그 데이터의 의미를 이해하지 못한다면 앞으로 데이터 시대를 살아가는데 많은 어려움이 예상된다.
데이터에 대한 실질 문맹률을 낮추기 위해서는 해결해야 할 문제를 정의하고, 그 문제를 해결하기 위한 데이터를 수집하고, 적합한 방법으로 분석하여, 이를 의사결정에 적극적으로 활용하여 원하는 결과를 만들어 내는 것이다. 데이터 리터러시는 빅데이터에도 있고 스몰데이터에도 있다. 데이터의 종류에 관계없이 문제를 해결할 수 있는 데이터이면 충분하다. 우선은 작은 문제에서 시작하여 데이터로 통찰하는 능력을 키우고 서서히 좀 더 복잡한 문제 해결을 위한 접근 방법을 추구한다면 산업 전반에 걸쳐 데이터를 기반으로 하는 비즈니스가 구현될 것이다. 데이터 리터러시 즉 데이터 문해력을 강화하는 것은 디지털 강국으로 가는 첫걸음이자 생존을 위한 첫걸음이다.