데이터 드리븐 보고를 위한 필수 역량은 수학, 통계, 코딩이 아니라 데이터로 생각하는 습관과 내가 가진 데이터로 주어진 문제를 분석 및 시각화하는 방법을 아는 것이다. 이 역량을 데이터 문해력 data literacy이라고 부른다. 데이터 문해력 수준에 따라 같은 데이터로 뽑아낼 수 있는 인사이트가 달라진다.
이 책에서 다루는 데이터 드리븐 보고의 형식은 복잡도가 간단한 순서부터 크게 여섯 가지(기 초 통계, 시각화, 가설검정, 회귀분석, 예측분류, 토픽 모델링)로 나뉜다. 여섯 가지 항목을 단계적으로 적용할 필요 없이 내가 보유한 데이터와 해결해야 할 질문에 따라 적절하게 선택하는 것을 추천한다.
1) 기초 통계
기초 통계는 데이터를 분석하기 위해 평균, 중앙값, 최빈값 등을 사용하여 데이터를 해석하는 방식이다. 데이터를 요약, 설명하고 패턴과 관계를 식별하는 데 자주 사용된다. 기업은 기초 통계를 사용하여 연령, 성별, 소득과 같은 고객 인구 통계를 분석하여 제품 또는 서비스의 목표 시장을 식별할 수 있다.
- 적용가능한 비즈니스 주제
판매데이터분석: 판매데이터를 분석하여 고객에게 가장 인기 있는 제품이나 서비스, 가장 매출이 높은지 가장 효과적인 마케팅 캠페인, 가장 수익성이 높은 고객 세그먼트를 파악하는 데 사용할 수 있다.
고객행동분석: 고객 행동데이터를 분석하여 고객이 웹사이트와 상호작용하는 방식, 가장 인기 있는 페이지 또는 기능, 가장 자주 구매하는 제품 또는 서비스, 가장 충성도가 높은 고객 세그먼트를 파악하는 데 사용할 수 있다.
직원성과분석: 직원성과 데이터를 분석하여 생산성이 가장 높은 직원, 이직률이 가장 높은 부서, 가장효과 적인 기술 또는 교육프로그램, 가장 수요가 많은 직무를 파악하는 데 사용할 수 있다.
2) 시각화
시각화는 데이터를 그래프, 차트, 인포그래픽과 같이 시각적으로 표현하는 과정이다. 의사결정 자가 대량의 데이터를 빠르게 이해하고 해석하여 보다 효과적으로 데이터 기반 의사결정을 내릴 수 있도록 도와준다. 예를 들어 기업 내 직원들의 연도별 인력구조 분석을 통해 과거, 현재, 미래를 비교하여 세대별, 성별로 분석한 결과를 제시하고 이를 토대로 추후 인력 채용과 인재 육성의 방향성을 제안할 수 있다.
- 적용가능한 비즈니스 주제
판매실적대시보드: 시간경과에 따른 판매실적을 보여주는 대시보드다. 매출에 대한 라인플롯과제품별 또 는 지역별 판매량을 나타내는 바 플롯이 있다.
마케팅 캠페인 대시보드: 다양한 마케팅 캠페인에 대한 클릭률, 전환율, 전환당 비용과 같은 핵심 성과 지표 (KPI )를 표시하는 대시보드다.
고객 만족도 스코어카드: 시간 경과에 따른 고객 만족도를 추적하는 것으로, 만족도 점수의 추세를 보여주는 차트와 순추천지수(NPS )와 같은 지표를 나타낸다.
3) 가설검정
두 개 이상의 그룹 간에 유의미한 차이가 있는지 확인할 때 주로 사용한다. 이 형식은 기업이 마케팅 캠페인, 제품 출시 또는 고객 만족도 조사의 효과를 평가하는 데 필수다. 예를 들어 가설검정으로 서로 다른 플랫폼(유튜브, 인스타그램, 페이스북) 별 평균 고객 확보에 차이가 있는지를 확인하고 효과적인 플랫폼을 식별할 수 있다.
- 적용가능한 비즈니스 주제
. 자사 제품의 평균 만족도가 벤치마크 점 수인 7.5점보다 높은지 확인할 때
한 회사에서 남녀 직원의 급여를 비교하 여 유의미한 차이가 있는지 확인할 때
클럽에서 새로운 운동 프로그램이 회원들 의 평균 심박수를 크게 증가시키는지 테 스트할 때
4) 선형회귀분석
회귀분석은 변수 간의 상관관계를 넘어, 구체적으로 변수들이 어떤 영향을 주는지 정량화할 때 사용한다. 특히 과거 성과를 기반으로 결과를 예측하는 데 필수적이다. 예를 들어 재무 부서는 과거 데이터를 기반으로 다음 분기의 매출을 예측하기 위해 선형회귀분석을 사용할 수 있다.
- 적용가능한 비즈니스 주제
판매 예측: 광고 지출, 판매 수익, 계절성, 홍보 채널, 고객 정보(나이/성별/지역 등)
가격최적화: 제품 가격, 경쟁사 가격, 소비자수요, 상품특징
고객분석: 고객 나이, 수입, 구매이력, 고객만족도, 홍보채널
5) 분류예측
분류예측은 예측하고자 하는 변수가 수치형이 아니라 범주형(Yes/No, 합격/불합격 등) 일 때 사용한다. 예를 들어 신용카드 회사는 분류예측을 활용하여 사기 거래를 식별한다거나 인사 부서에서는 퇴사율을 예측하는 것도 분류예측에 해당된다.
- 적용가능한 비즈니스 주제
고객 이탈 예측: 고객 데이터를 기반으로 분류예측모델을 구축하면 고객이 이탈할 가능성을 예측할 수 있다. 이를 통해 사전에 이탈 가능성이 높은 고객을 파악하여 이들을 유지하기 위한 전략을 수립하는 데 도움을 얻을 수 있다.
신용 위험 평가: 금융기관은 고객의 신용 위험을 예측하기 위해 분류예측모델을 사용하여 고객의 신용 정보나 소득정보 등으로 신용위험을 평가하고 이를 기반으로 대출여부를 결정할 수 있다.
6) 토픽 모델링
토픽 모델링은 텍스트와 같은 대규모 비정형 데이터셋을 분석하거나 고객 피드백 또는 소셜 미디어 게시물의 패턴과 추세를 식별하는 데 사용된다. 예를 들어 매일 발행되는 뉴스 기사를 수집하여 특정 회사의 이슈나 키워드를 파악하기 위해 토픽 모델링을 사용하기도 한다.
- 적용가능한 비즈니스 주제
토픽모델링 기반 뉴스기사 분석을 통한 서울시 이슈 도출
토픽모델링 기반 신문 주제별 자동분류(경제, 스포츠, 정치, 과학등)
직원 만족도 조사시 개방형 질문에 대한 응답분석