로직보다 데이터 먼저

결측과 변수 제거

Jan 17. 2018

현업 관계자들을 만나보면 많이 하는 실수 중 하나는 데이터를 암묵지에 따라 사용한다는 것입니다. 직관에 완전히 의존하지 않고 데이터를 본다는 것은 높게 평가해 줄 수 있지만 데이터 활용을 결국 직관에 따라 한다는 것은 안하는 것만 못합니다. 대부분은 통계에 대한 기본적 이해가 없기 때문에 활용을 못하는 데서 출발합니다.

보통 현업 담당자들이 모여서 암묵지로 되어 있는 내용을 하나의 지식 체계로 정리하려고 할 때 많이 쓰는 게 엑셀 등을 이용한 '계산기'를 만드는 것입니다. 재무적인 효과를 예측하고 비용을 계산해서 시뮬레이션을 해 본다든지 상품 데이터를 활용해 상품을 일정 유형으로 분류하여 각각의 기대 성과를 측정하는 것은 기존의 재무, 영업, 기획 부서 등이 암묵적으로 알아서 하던 것을 모두가 사용할 수 있게 도구로 바꾼 것입니다. 하지만 이들은 담당 분야의 전문가일 뿐 데이터를 활용하는 데 있어서는 전문가가 아닙니다. 오히려 기존 관성에 따라 경험으로 아는 것을 추종하는 것일지도 모릅니다. 성과를 내는 요인에 대해 검증을 해 본 것은 매우 드문 게 현실이기 때문입니다.

보통 이런 도구를 만들 때는 현업 당사자들이 직접 자신이 아는 주요 변수들을 나열해서 나름의 수식을 만들거나 기획 부서가 사내에 흩어진 지식을 모으기 위해 현업 담당자를 만나 일종의 룰베이스 도구를 만들어 냅니다. 하지만 이 과정에서 그 변수가 정말 성과를 내는 데 도움이 된 것인지는 별도의 검증 작업이 필요합니다. 사실 이런 과정은 어렵지도 않습니다.

독립적인 변수(요인)가 종속변수(성과)에 영향을 미치는 지 알아보는 방법은 엑셀에서도 기본적인 것은 할 수 있습니다. '엑셀'에 '데이터 분석'을 활용하면 기본적인 통계는 할 수 있습니다. 데이터에 있는 변수 중에서 지나치게 결측이 많거나 한쪽으로 분포가 편향된 변수를 가지고 성과와 관련성을 증명하는 식을 만들 수는 없습니다. 또 독립 변수가 종속 변수와 얼마만큼의 상관성을 갖고 있는지도 따져봐야 합니다. 상관성이 1에 가까우면서도 교효작용이 적은 변수를 찾는 것은 엑셀에서도 기본적인 것은 할 수 있습니다. 다만 이런 과정이 생략되고 로직 자체만 강조되는 기업 문화에 문제가 있는 것이죠. 데이터의 질, 데이터의 성격에는 신경쓰지 않고 데이터가 흐르는 로직만 역량이라 생각하는 기업에선 일단 표를 짜고 식을 만드는 것부터 출발합니다. 이런 기업은 제대로 된 변수가 들어갔는지조차 검증하지 않습니다. 검증을 하려하면 외려 기존 관리자의 책망을 받을 수도 있습니다.

먼저 성과와 관계없는 변수를 제거하고 정말 집중해야할 KPI를 찾는 게 중요합니다. 성과를 만들어 내는 행동은 어떤 목표에 집중할 것인지 정하는 데서 출발하니까요. 하지만 기업 내부에서는 결과가 결과를 설명하는 KPI나 이렇게 성과와 상관 없는 관습적인 KPI들이 성과를 내는 중요한 요소로 인정 받고 있습니다.

또한 결측에 대한 것도 바르게 인정해야 합니다. 보통 많은 부분들이 비어 있는 결측값이면 평균이나 최빈값을 적용해서 결측값을 대체하거나 의사결정나무 기법을 이용해 결측값을 추정하는 방법들을 씁니다. 하지만 일부 기업에서는 로데이터에 대한 검증이 약하면 최대치의 숫자를 유리한대로 갖다 붙이는 경우가 많습니다. 일례로 점포개발에 대한 수요를 특정 지역에서 파악한다고 할 때 가장 비슷한 컨디션의 사례를 비교하는 것이 아니라 최근 가장 우수한 실적을 낸 점포로 미래 매출을 희망하는 것도 있습니다. 데이터 정합성에 대한 관리나 프로세스가 부실하고 관심이 없으면 가장 중요한 부분이 가장 대충 넘어가고 정작 별 필요 없는 일을 더 열심히 하는 경우가 벌어집니다.

다시 한 번 말씀드리지만 데이터 자체에 주목하고 정합성에 집중하는 것은 어려운 일도 아니고 비싼 도구가 꼭 필요한 것도 아닙니다. 기업 문화에 그런 절차와 의식이 있다면 가볍게 할 수 있는 작업입니다. 직관도 필요하고 귀납적인 사고도 필요합니다. 단 암묵지를 지식화 할 때 로직 뿐 아니라 데이터 자체를 바라보는 자세가 필요합니다.

keyword