Data Analytics
이 글은 Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)내 내용을 추가, 번역, 의역, 재구성한 글입니다.
데이터를 다루는 조직이라면, ‘데이터-드리븐(data-driven)’이라는 말을 종종 듣게 된다. 그렇다면 그 의미는 정확히 무엇이며, 의사결정에 어떤 영향을 미칠까? 그리고 데이터-드리븐은 정말 좋은 것일까?
[데이터는 매력적이고 강력하다. 그렇기에 위험하다.]
많은 사업 조직들은 데이터를 활용한다. 중대한 사업적 결정의 중요한 근거가 되기도 하며, 사업의 내부 운영을 직접적으로 최적화 하는 데에 중요한 역할을 수행하기도 한다. 하지만 데이터는 때로 너무 중독적이어서, 모든 것을 과하게 분석하게 만들어 오히려 비효율을 야기하기도 한다.
사업적인 의사결정을 진행할 때 중요한 것 중 하나가 리스크를 완화하는 것이다. 그렇기 때문에 데이터로써 리스크들을 측정하고 이를 사전에 방지하고자 한다. 하지만 사업적인 의사결정에 중요한 것은 리스크 완화뿐만이 아니다. 결국에 달성하고자 하는 ‘목적과 목표’가 있으며, 그 목적과 목표를 탁월하게 달성하기 위한 방법들에 대해 고안하는 과정에서 데이터가 도움을 주는 것이다.
하지만 종종 조직들은 데이터 측정에 주객전도되거나, ‘리스크 완화’에만 치중하게 되어 큰 그림은 잊은 채 운영적 비효율을 야기하기도 한다. 실생활의 예로 들자면, 매번 팬티를 갈아입을 때 A/B 테스트를 해야만 안심하고 팬티를 갈아입는 것처럼 말이다. 이렇게 데이터에 잠식되다보면, 많은 리소스가 ‘측정하는 행위’에만 집중되고 사업적인 의사결정이 실질적으로 이뤄지지 않게 되면서 조직을 무너뜨리기도 한다.
[데이터-드리븐은 무엇인가?: Data-driven vs Data-informed]
데이터를 활용한 의사결정에는 크게 두 가지가 있다. 데이터 의존적 의사결정(data-driven)과 데이터 기반(data-informed) 의사결정이다. 데이터 의존적 의사결정이 흔히 말하는 ‘데이터-드리븐’이며, 의사결정이 거의 전적으로 데이터에 의해 이루어지는 것을 말한다. 이와 달리, 데이터 기반 의사결정은 데이터 의존적 의사결정보다 좀 더고차원적인 접근으로, 데이터를 바탕으로 좀 더 넓은 시각으로 판단을 내리는 것을 의미한다.
[데이터가 잘못 사용되는 사례]
한 애널리틱스 회사에서는 컨텐츠 최적화 애널리틱스를 제공했는데, 애널리틱스의 알고리즘이 헐벗은(scantily clad) 여자 사진을 올리면 클릭율이 오를 것이라고 추천했다고 한다. 성인물은 대개 높은 클릭율을 보이긴 하는데, 이를 일반적인 회사에서 활용하는 것이 맞을까?
합리적인 판단을 하는 사람이라면, 당연히 잘못된 의사결정이라고 생각할 것이다. 성인물을 통한 높은 클릭율은 단발적인 이득일 뿐이며, 그 회사의 브랜드 가치와 사용자의 경험을 크게 해칠 수 있으니 말이다. 이 예시가 극단적이라서 설마 이런 일이 있겠냐고 하겠지만, 어그로성 및 허위 광고성 컨텐츠를 통해 마케팅을 진행하는 것도 크게 다를 바가 없다.
즉, 맥락, 의미, 목적이 결여된 채로 데이터와 수치 뻥튀에만 치중되어 의사결정을 내리는 경우 사업의 존속에 부정적인 영향을 끼칠 가능성은 기하급수적으로 커질 수밖에 없다.
[최적화란 무엇인가?]
최적화는 사업이 취할 수 있는 최대 및 최소 가치값을 찾아 적정한 위치를 유지시키는 과정을 의미한다. 그런데 최적화는 거시적인 관점과 미시적인 관점에서 굉장히 큰 의미 차이를 가지고 있다. ‘사업 자체의 가치’에 대한 최적화는 ‘사업’이라는 함수가 취하는 ‘전체 범위’에서의 최대값과 최소값이다. 하지만 미시적인 관점에서의 최적화는, 현상 유지의 관점에서 부정적인 변화를 최소화시키는 데에 목적을 두고 있다. 즉, 데이터를 활용해 ‘제한된 범위’에서의 최대/최소값을 찾는 것이다.
즉, 미시적인 관점에서의 최적화는 극대/극소값을 찾는 과정이다. 극값, 극대/극소값(local maximum/minimum)이란, ‘특정 범위 내’에서의 최대/최소 값을 의미한다. 사업이 가지고 있는 데이터는 현재와 가까운 언저리의, 다소 짧은 범위의 기간 내의 데이터를 다룰 수밖에 없다. 그렇기 때문에 데이터는 사업이 가질 수 있는 폭넓고 무궁무진한 범위에서 극히 일부분만을 다루고 있는 것이다.
예를 들어, 지금 산의 정상에 올라 보이는 시야의 범위(=데이터가 다루는 범위)에는, 내가 서있는 정상과 산 꼭대기 내부의 호수가 보인다. ‘높이’를 측정하고자 한다면, 여기서 높이의 극대/극소값은 산의 정상과 호수다. 그런데 “내가 밟을 수 있는 가장 높은 지점은 산의 정상이고, 낮은 지점은 호수이다.”라는 명제가 맞을까? 아니다. 산의 정상보다 더 높은 산이 존재할 수 있고, 호수보다 더 낮은 해수면과 가까운 지면이 분명히 존재한다.
이렇듯, 데이터는 제한된 범위에서의 값들을 대표할 뿐 그 자체로서 절대적인 의사결정의 대표성을 지니기에는, 장기적인 관점에서 위험성을 가지고 있다.
[인간은 창의성을 발휘하고, 기계는 검증한다. (Humans do inspiration; machines do validation.)]
그렇기에 데이터 자체에 휩쓸리다보면, 자칫 근시안적인 변화만을 추구하게 되는 위험에 처하게 될 수 있다. 계속해서 데이터로만 의사결정을 내리는 것은, 현재에 안주한 의사결정을 내리는 것과 다름 없다. 그렇게 되면, 더욱 중요하고 큰 기회들을 놓치고 있는 것이다.
데이터를 사용하는 것은 현재에 안주하기 위함이 아니라, 데이터를 통해 ‘더욱 낫고 똑똑한 의사결정’을 내리기 위함이다. 따라서, 사업적으로 가치를 크게 발생시키는 의사결정을 하기 위해서는 다른 방법이 필요하다. 그 방법이란, ‘데이터’는 ‘가설’을 검증하기 위해 사용하는 것이다.
점진적 개선은 극값을 선호하며, 혁신은 전역적인 최대최소값을 목표로 한다.
Change favors local maxima; innovation favors global disruption.
데이터는 현상을 측정 가능한 값으로서 설명해주기 때문에 사업에서 필수불가결한 역할을 수행하는 것은 부정할 . 수 없다. 하지만 현재에 귀속된 ‘현상’에 대한 설명이기 때문에, 사업이 경쟁 우위를 갖기 위해서는 데이터에 의존하는 것은 많은 제약사항을 발생시킨다.
폭발적인 성장을 목표하고 있는 사업가라면, 데이터가 말하는 대로 의사결정을 하는 것이 아니라 그 데이터를 기반으로 탁월하고 새로운 생각들을 만들어내고, 이를 가설화시켜 이를 데이터로 검증시키는 것이 필요한 것이다.