데이터 애널리틱스의 정의와 좋은 지표를 설정하는 방법

Data Analytics

Jun 11. 2024

이 글은 Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)내 내용을 추가, 번역, 의역, 재구성한 글입니다.

제작: DALL-E

데이터 분석 (Data Analysis)과 데이터 애널리틱스(Data Analytics)의 학술적인 정의

데이터 분석은 일반적으로 데이터를 수집, 정리, 해석하는 과정으로, 주로 과거 데이터를 기반으로 특정 패턴, 트렌드, 관계 등을 찾아내는 데 초점을 맞춘다. 데이터 분석의 목표는 데이터에서 의미 있는 정보를 도출하여 의사결정에 도움을 주는 것이다.

데이터 애널리틱스는 보다 넓은 개념으로, 데이터 분석을 포함하면서도 이를 넘어서 예측 모델링, 머신 러닝, 데이터 마이닝 등의 고급 기법을 사용하여 미래의 트렌드나 패턴을 예측하고 최적의 결정을 내리는 데 중점을 둔다.

데이터 애널리틱스는 다음과 같이 나뉠 수 있다.
1. 과거 데이터를 요약하여 현재의 상태를 설명하는 설명 목적의 애널리틱스(descriptive analytics)

2. 과거 데이터를 분석하여 현재의 상태를 분석하는 진단 목적의 애널리틱스(diagnostic analysis)

3. 과거 데이터를 바탕으로 미래를 예측하는 예측 목적의 애널리틱스(predictive analytics)

4. 예측된 결과를 바탕으로 최적의 행동 방안을 제안하는 처방 목적의 애널리틱스(prescriptive analytics)

즉, 데이터 분석은 주로 과거 데이터를 해석하고 현재의 상태를 설명하는 데 중점을 두지만, 데이터 애널리틱스는 과거 데이터의 해석을 넘어서 미래 예측 및 최적의 행동 방안을 도출하는 데 중점을 두는 폭넓은 과정이다.

실용적 측면에서 애널리틱스는 무엇을 의미하는가?

애널리틱스는 사업에 중요한 지표(metric)를 추적하는 행위라고 볼 수 있다. 그렇다면 지표는 왜 중요할까? 지표는 사업의 비즈니스 모델에 깊게 관여하기 때문이다. 비용이 얼마인지, 수익은 어디서 발생하는지, 고객은 얼마나 있는지, 고객을 획득하는 데에 얼만큼의 자원이 들어가는지처럼 말이다. 특히, 창업 단계에 있는 스타트업의 경우에게 지표는 돈이 동나기 전에 사업성을 가진 제품을 빠르게 찾을 수 있도록 해주는 길잡이 역할을 수행한다.

그렇다면 좋은 지표란 무엇인가?

1. 좋은 지표는 비교될 수 있어야 한다(comparative).

- 좋은 지표는 시간, 군(segment, group) 등을 기준으로 비교되며 사업이 어디로 향하고 있는지 보여줄 수 있어야 한다.

2. 좋은 지표는 이해할 수 있어야 한다(understandable).

- 조직원들이 이해할 수 없거나 적극적으로 논의되지 않는 지표는 사업에 영향을 끼치기 힘들다.

3. 비율(ratio or rate)은 좋은 지표인 경우가 많다.

- 비율은 본질적으로 상대적인 특성이 있기 때문에 쉽게 비교 가능하며, 대부분의 경우에 관련된 다른 요소들이 존재하여 사업에 관련된 여러가지 지표들에 대한 관계도 파악 가능하다.

- 가능하다면 두 가지의 지표를 짝지은 비율 지표를 만들어 사업적으로 건강한 결과를 내는지 확인할 수 있도록 하는 것이 좋다.

- 예를 들어, 출시하려는 서비스를 무료화시키면 사용자가 늘어나고 매출은 늘지 않을 수 있으며, 서비스를 유료화시키면 매출은 늘지라도 사용자가 줄어들 수 있듯이, 각 선택 상황에서 전체적인 사업의 건강 상태를 확인하고 미래에 최적의 선택을 할 수 있도록 돕는 지표 설정이 필요하다.

4. 좋은 지표는 행동 방식을 바꿔줄 수 있다.

- 일일 매출과 같은 회계적인 지표(accounting metric)은 사업이 이상적인 결과에 다다랐는지 보여주는 결과론적인 지표다. 이와 달리, 실험 지표(experimental metric)은 제품, 가격, 시장에 대한 실험을 통해 나오는 지표로, 사업을 최적화시켜주기도 하며 취할 행동에 크게 영향을 미친다.

- 좋은 지표는 사용자들을 획득하고, 유지시키며, 입소문을 만든 더 나을 방법을 찾을 수 있도록 해주는 단서로 역할하기 때문에, 사업이 취해야 할 행동들에 영향을 미칠 수밖에 없다.

5. 좋은 지표는 고객과 사업에 모두 긍정적인 영향을 미친다.

- 잘못된 지표(false metric)은 조직원이 근시안적인 행동이나 주객전도된 행동을 하게 만들어, 겉보기에 사업에 긍정적인 영향을 미치는 것처럼 보이지만, 고객과 사업에 모두 악영향을 끼치는 경우가 많다.

- 예를 들어, 영업팀의 목표 지표를 '진행 중인 영업 미팅의 수'로 잡게 된다면, 영업팀원들은 무지성적으로 세일즈 리드의 질과 상관없는 사람들에게 영업을 진행하게 되어 일을 더욱 복잡하게 만들 수 있으며, 진행 중인 영업 미팅의 수만 많아질 뿐 최종 계약 성사는 거의 이루어지지 않을 가능성이 크다.

6. 좋은 지표는 짝지어진 형태로 제시되어, 양적인 부분뿐만 아니라 질적인 부분도 보장해준다.

- 전환율(conversion rate)을 추적한다면 전환까지 걸린 시간을 함께 추적하며, 바이럴 계수(viral coefficient)를 추적한다면 바이럴 사이클 타임(viral cycle time)과 함께 추적하듯이, 지표들을 짝지어 측정하면 사업에 갖는 의미를 더욱 깊게 이해할 수 있게 해준다.

지표를 구분하는 기준은 무엇이 있을까?

지표를 평가하고 분류하는 방법은 다섯 가지 정도가 있다.

1. 질적인 지표 vs 양적인 지표 (qualitative vs quantitative)

2. 허세적인 지표 vs 행동을 유도하는 지표 (vanity vs actionable)

3. 탐구를 위한 지표 vs 보고를 위한 지표 (exploratory vs reporting)

4. 선행 지표 vs 후행 지표 (leading vs lagging)

5. 상관관계를 가진 지표 vs 인과관계를 지닌 지표 (correlated vs causal)

1. 질적인 지표 vs 양적인 지표 (qualitative vs quantitative)

질적인 지표는 이야기 요소적인 특징이 있어(anecdotal) 드러내는 것이 많지만(revealing) 구조화 되어 있지 않아(unstructured) 수집하거나 종합하기가 어려운 특성을 가진 지표를 의미한다. 양적인 지표는 통계적인 특성이 강해 일반적으로 숫자와 같은 형태를 띄어 계산과 종합이 쉬울 수 있지만, 인사이트가 들어있는 경우는 질적인 지표에 비해서는 적다.

양적인 데이터가 '무엇(what)'과 '얼마나(how much)'에 대한 것이라면, 질적인 데이터는 '왜(why)'에 대한 것을 알려준다. 질적인 지표는 보통 인터뷰를 통해 얻어지는 데이터로, 주관적이고, 정리되어 있지 않은 형태가 많아 수치화하기 어려운 경향이 있지만, 고객들의 행동에 대한 근본적인 이유와 인사이트를 제공해주기 때문에 매우 중요하다.

스타트업과 같이 사업을 시작한지 얼마 안 된 경우에는 두 지표가 모두 부족할 수밖에 없다. 그렇기 때문에 직접 (잠재)고객들에게 찾아가 사업으로 다루려는 주제에 대해서 물어본 후 양적, 질적 지표를 모두 얻기 위해 노력하는 것이 중요하다. 특히나, 제품의 가치와 확장성을 파악하기 위해서는 '왜'에 대한 분석이 굉장히 중요하다. 좋은 질적인 지표를 얻기 위해서는 철저한 준비가 필요한데, 편견을 갖지 않도록 체계적으로 인터뷰를 설계하지 않으면, 오히려 이상한 데이터를 얻게 되어 치명적인 의사결정을 하게 될 수 있으니 주의해야 한다.

2. 허세적인 지표 vs 행동을 유도하는 지표 (vanity vs actionable)

많은 회사들은 자신들이 '데이터 중심'이라고 주장하지만, 데이터를 기반으로 유의미한 '행동'으로 이어지는 경우는 매우 드물다. 수많은 데이터들을 측정하지만 사업적인 전략에 유의미한 영향을 끼치고 있지 않다면, 그 수치들은 모두 허세적인 지표들이다. 허세적인 지표는 보는 사람이 기분을 좋게 만들거나 자기위안의 역할을 수행하기만 하며, 행동을 유도하는 지표는 사업의 방향성을 정하여 행동을 취할 수 있도록 도와주는 지표를 말한다.

행동을 유도하는 지표는 "내가 이 정보로 어떻게 또 다르게 접근할 수 있을까?"라는 지표에 대해 여러가지 접근을 가능할 수 있도록 해준다. 이러한 다양한 접근법들을 생각할 수 있게 만드는 지표가 없다면, 그 조직은 데이터로 움직인다고 볼 수 없다.

예를 들어, '회원가입자수'는 필연적으로 늘어나는 방향으로밖에 올라가지 않는 지표기에 허세적인 지표다. '총 활성 사용자 수(total active users)' 또한 대표적인 허세 지표다. 사업이 '정상적으로 돌아가기만 한다면' 늘어나는 게 정상인 지표기 때문이다. 좋은 지표는 '특정 기간 내에 신규 획득된 사용자 수', '전체 사용자 중 총 활성 사용자 수'과 같이, 특정 변화 요인을 가했을 때 유의미한 정보를 얻을 수 있을 뿐만 아니라, 미래에 어떤 행동을 또 취해야할 지 생각할 수 있도록 하는 지표를 의미한다.

3. 탐구를 위한 지표 vs 보고를 위한 지표 (exploratory vs reporting)

탐구를 위한 지표는 알지 못한 인사이트를 제공하여 시장에서 우위를 정할 수 있도록(give you the upper hand) 해주는, 추론이 필요한 지표다. 반면 보고를 위한 지표는 매일 수행하거나 운영 및 관리적 측면에서 보고되는 지표들을 의미한다.

사업에서는 아래와 같이 4가지의 아는 것과 모르는 것들이 있다.

(1) 우리가 알고 있다고 알고 있는 것들 (things we know that we know)

- '사실'에 관련된 정보를 의미하며, 데이터와 대조하여 확인될 수 있는 것들이 이에 속한다.

(2) 우리가 모른다고 알고 있는 것들 (things we know that we don't know)

- 우리가 알고 싶어하는 '질문'들에 해당하는 정보들이며, 이 질문을 기준선으로 삼고 자동화하여 보고받을 정보들을 의미한다.

- 유저의 수, 매출 등과 같이 찾아서 계산하면 되는 정보들이 이에 해당한다.

(3) 우리가 알고 있지만 어떻게 아는지 모르는 것들 (things we don't know that we know)

- '직관'을 통해 알 수 있는 것들을 의미하며, 이를 체계화하고 계량화하여 효율성을 향상시켜야 한다.

(4) 우리가 모르는, 모르는 것들 (things we don't know that we don't know = unknown unknowns)

- '탐구'를 통해 알아내야 할 미지의 영역으로, 사업에 차별성과 흥미로운 통찰을 만들어 내는 영역이다.

- 새로운 것을 발견하여 시장을 교란시킬 수 있는 인사이트를 얻을 수 있도록 하기 때문에 특히 스타트업에 중요하다.

(1)~(3)의 영역은, 현재 사업에서 다루고 있는 정보, 가설 등에 대한 구체적 증거들을 수집하고 구체화하는 것이라면, (4)의 영역은 사업을 폭발적으로 확장시킬 수 있는 귀중한 기회(the nugget of opportunity)를 제공해줄 수 있다.

4. 선행 지표 vs 후행 지표 (leading vs lagging)

선행 지표는 미래에 일어날 일들에 대해 암시해줄 수 있는 지표인 반면, 후행 지표는 이미 과거에 일어난 일에 대해 결과적인 것들을 말해주는 지표다. 빠르게 시장에서 대응하려면 선행 지표를 주력으로 봐야 한다. 후행 지표를 보는 것은 소잃고 외양간 고치는 것과 다름 없다. 물론 데이터가 부족한 초기 스타트업이라면 후행 지표도 유용할 수 있지만, 사업 성과에 중요한 영향을 미치는 선행 지표가 발견된다면 이를 집중적으로 추적하는 것이 좋다.

이탈(churn)은 대표적인 후행 지표다. 이미 문제가 생겨 고객이 떠난 것을 측정한 지표이기 때문이다. 어떤 것을 개선한다고 할지라도, 이탈한 고객이 다시 돌아오지 않는다.

그렇다면 이탈이라는 후행 지표를 보완할 선행 지표는 무엇이 있을까? 특정 기간동안의 불만 사항 접수량이 선행 지표로 작용할 수 있다. 해당 지표가 시간이 지남에 따라 증가한다면, 이탈하는 고객들이 증가할 것이다. 불만 사항이 증가한 이유를 찾아 적절히 대응한다면, 고객의 이탈을 선제적으로 막을 수 있기 때문이다.

선행 지표 자체가 중요한 본질적인 이유는, 더 나은 의사결정을 '미리' 할 수 있도록 만들어주기 때문이다. 심각한 문제에 대한 리스크를 선제적으로 알려주거나, 고객의 만족도를 나타낼 수 있는 지표들로 더 나은 의사결정을 기민하게 하는 것이 목적임을 잊지 말아야 한다.

5. 상관관계를 가진 지표 vs 인과관계를 지닌 지표 (correlated vs causal)

두 지표가 함께 변화하면 상관관계를 가진 것이며, 한 지표가 다른 지표를 특정 방향으로 움직이게 만들면 인관관계를 가진 지표다. 상관관계를 가진 것들은 미래의 양상을 예측할 수 있도록 해주며, 인과관계를 가진 것은 의존적인 방식을 통해 특정 방향으로 움직인다.

상관관계를 가진 것과 인과관계를 혼동해선 안 된다. 여름이 오자, 아이스크림 구매량과 익사로 죽은 사람이 늘어났다. 그렇다면 아이스크림을 구매를 막아 익사할 확률을 줄이자고 주장하는 게 맞을까? 아니다. 아이스크림 구매량과 익사로 죽은 사람은 상관관계를 지닌 것으로, 각 지표는 '여름'과 인과관계를 지니고 있다.

이렇듯, 수많은 상관관계를 지닌 요인들을 실험을 통해 어떤 요소가 사업에 영향을 미치는지 파악하는 것이 우선적이다. 그 이후, 사업의 성과에 인과관계를 가진 지표가 무엇인지 적절한 표본으로 반복적인 실험을 통해 알아나가는 것이 중요하다. 물론, 이 인과관계를 찾는 것은 매우 힘든 일이다. 그렇기 때문에 스타트업이라면 간소화된 실험을 많이 수행하여 지표간의 관계들을 밝혀나가는 것이 핵심이다.

keyword

작가의 이전글24년 6월 11일 흠터레스팅 테크 뉴스24년 6월 12일 흠터레스팅 테크 뉴스작가의 다음글