데이터를 200% 활용하기 위해 두고두고 읽고 싶은 책
※ 오늘 볼 도서는 카시와기 요시키의 <데이터 문해력>이라는 책입니다
→ 구매 링크 바로가기 : http://www.yes24.com/Product/Goods/97701103
지난 11월, 힙 데비 (힙한 데이터 분석의 비밀 모임)을 당찬 포부로 시작한 것도 잠시,
여러 난관에 부딪혔습니다. 만 3년간 회사생활을 해오면서 두서없이 크고 작은 데이터 분석 업무를 하며 나름 자신감을 가졌지만 Key Metric(북극성 지표)를 설정하는 것부터 Metric hierarchy(사내에서 관리하고 있는 지표들 가운데 어떤 것들끼리 서로 상관관계를 가지며 무엇이 인과관계를 가지는지) 관점에서 사고하는 것 등 쉬운 것 하나가 없었습니다. 평소 어드민 시스템과 프론트 서비스의 일부만 담당했던 입장에서 고객 행동 데이터를 가지고 의사결정을 한다는 것이 무대 뒤편에서 스텝일을 하다가 갑자기 PD 역할을 맡게 된 상황 같았습니다. 그러니까 데이터의 중요성과 어떤 데이터가 있다는 것은 알아왔지만, 데이터를 어떻게 활용하고 어떻게 분석하는지에 대한 공부는 제대로 한 적이 없었기에 우왕좌왕할 수밖에 없었던 것이었죠.
방법론 서적인 만큼 이번 책은 다른 서평 때의 십구문 (10가지 구문)이 아닌 목차별 내용을 정리해보고자 합니다. 내용은 다음과 같습니다. (챕터 8 부분은 조직에 관련된 내용으로 생략하였습니다)
· 데이터를 잘 활용하고 싶다면 3가지 상자가 필요하다
· 그 상자란 ① 분석 전에 문제 및 목적을 정의하고 가설을 구축
② 분석을 위한 기술과 지식
③ 분석 결과에 대한 해석 및 스토리 구축
· ①과 ③를 합쳐서 우리는 데이터 문해력이라고 한다.
· 데이터 문해력의 다른 말은? 목적 사고력!
- 무슨 말을 하고 싶은지를 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식
- 데이터 안에는 해답이 존재하지 않는다
- 데이터를 분석하면 결론이 나오거나 가공하면 유용한 정보를 얻을 것으로 생각하는 것은 잘못되었다
- 즉, 데이터와 데이터 분석은 목적을 달성하기 위한 도구에 지나지 않는다
· 데이터 활용에서 가장 먼저 해야 할 것은 '목적과 문제를 잘 정의하는 것'이다
· 문제가 무엇인지, 그 문제의 원인은 무엇인지, 원인에 대한 해결 방안은 무엇인지 고민해봐야 한다
※ 참조 : 데이터 활용 프로세스
EX) 인재 부족으로 효율적이고 효과적인 영업 활동을 못 하고 있다.
작업 효율화를 높여 구조 조정을 하고 싶다.
▼ 문제점 1) 효율적이고 효과적인 영업 활동 불가를 문제로 지적, 동시에 인재 부족이란 원인을 언급
▼ 문제점 2) 원인으로 말한 '인재 부족'은 하나의 가설일 뿐 명확한 원인인지는 알 수 없음
▼ 문제점 3) 효율/효과적 영업 활동 불가가 진짜 문제일까? 그로 인한 '영향'이 진짜 문제 아닐까?
→ 영업 활동을 못하면 '수주 수가 급감'한 것이 진짜 문제가 될 수 있음
→ 그럼 수주 수가 급감한 원인 중 하나가 효율/효과적인 영업의 부족이 되는 것
▼ 문제점 4) 그럼 효율/효과적인 영업이 이뤄지지 못한 진짜 이유는?
→ 고객 상담 및 대응과 같은 상세 원인이 미논의
· 지표 결정이 중요한 이유 : 어떤 지표를 사용할지 검토할수록, 가장 적합하고 수집하기 쉬운 지표를 선택
EX1)
결론 : 고객 불편 사항에 대한 개선이 되고 있지 않다 - 초기 설정 지표 : 클레임 수
변경한 지표 : 고객 응대 인원, 클레임 수 대비 개선 건수, 상품군별 상담 유형별 개선 클레임 증감률 등
→ '개선되고 있지 않다'는 문제를 클레임 수가 대변할 수 있을까?
→ 그리고 개선되고 있지 않음을 나타내려면 클레임 수 대비 개선 건수로 봐야 함!
→ 원인을 따져보려면 클레임 수, 고객 응대 인원, 효율 등의 지표를 함께 봐야 함
EX2) 결론 : 광고에 대한 반응이 적다 - 초기 설정 지표 : 문의수
→ 반응이 적다는 것을 무엇을 가지고 이야기할 수 있나? (구체성 결여)
→ 문의 수 자체만 놓고서는 광고 반응을 평가할 수 없으며 일부분에 한함
EX3) 결론 : 고객 만족도 향상 - 초기 설정 지표 : CS 설문조사 점수
→ 주의할 부분은 고객 만족도 향상 자체가 최종 목적이 될 수 없음
→ 최종 목적을 명확하게 규명하고 수단으로써의 고객 만족도 향상을 추구하도록 해야 함
EX4) 결론 : 시간 외 근무 시간이 적절한가? - 초기 설정 지표 - 월평균 시간 외 근무 시간
→ 시간 외 근무 시간이 '적절'하다는 것의 의미는 뭘까?
= 시간 외 근무 시간이 0시간이라는 것
= 월평균 시간 외 근무 시간이 어느 일정 범위를 넘지 않는 것
= 부서별 시간 외 근무 시간이 평준화되어 있다
= 특정 개인에게 쏠림 현상이 없다
· 가치 있는 정보란?
- 구체적인 행동을 특정하고 구체적인 판단을 내릴 재료가 된다
· 데이터를 판단하기 어떻게 해야 효과적일까?
- 결론으로 이어지는 결과가 나와야 한다 (목적이 설정되어야 함)
ex) 결론 : a와 b는 차이가 있다 ↔ 결론 : a와 b가 차이가 있다는 것은 c를 의미한다
- 비교를 통해 '차이'를 찾을 수 있어야 한다
· 비교를 잘하는 방법은?
1) 평균을 사용하거나
2) 추이와 변화를 보거나
3) 편차를 고려하거나 (데이터 전체의 분포와 편차)
4) 종합 정리해보면?
<데이터의 평가 기준>과 <대표 지표>
① 값의 크기는 - 평균값, 합계로
② 추이는 - 선형 그래프, 막대그래프, 변화율
③ 등락 폭 - 표준편차, 도수 분포도
④ 비율 - 분수, 퍼센트
EX1) 고객 만족도 비교
- 서비스 A : 만족도 4.0점 (5점 만점)
- 서비스 B : 만족도 3.5점 (5점 만점)
→ 이것만 보고 A 서비스가 더 좋은 서비스라고 결론을 내릴 수 있을까?
▼ 접근법 : 평균이 아닌 데이터의 분포도로 확인해보기
▶ 만약, A 서비스는 거의 전부 평균값에 가깝게 평가 ↔ 반면 B 서비스는 매우 높은 평가 & 낮은 평가 극단
▶ 비율만 놓고 보면, A 서비스보다 B 서비스에 높은 평가를 준 사람이 많다고 보면
해석에 따라 B가 더 좋은 서비스로 볼 수 있음
EX2) 시간 외 근무 시간 비교
1팀 40시간 / B팀 42.5시간 / C팀 40.5시간 / D팀 56.2시간/ E팀 40.8시간/ F팀 33.8시간
→ 시간 외 근무 시간이 어느 팀이 더 높다, 평균값 대비 어느 팀이 더 높다만 알 수 있을까?
▼ 접근법 : 목적을 좀 더 구체화해보기
① <같은 부서>에서 시간 외 근무 시간의 직원별 분포 상태를 평준화
② <부서 간> 시간 외 근무 격차를 평준화하고자 한다
③ <부서 내> 일정 시간 이상 근무하는 직원이 없도록 한다
· 데이터에서 원인을 찾는 방법
EX1) 문제 : 어떤 상품의 매출이 감소했다 ↔ 원인 : 경쟁사의 가격 인하 전략 시행
EX2) 원인 : 경쟁사의 가격 인하 전략 시행 ↔ 지표 : 경쟁사의 가격 인하'율' 변화
EX3) 원인 2 : 경쟁사의 가격 변동이 몇 번씩 반복 ↔ 지표 : 가격 변동 움직임과 매출 변화 간의 관계성을
파악하기 위해 '가격 변동률' 데이터를 활용
★ 경쟁사의 가격 인하 데이터가 아닌 가격 인하라는 동적 DATA에 초점을 맞춤
· 만약 데이터 수집이 어려운 경우라면?
- 유사 데이터를 보거나, 직접 수집하거나, 정성적인 정보로 대응하기
· 문제와 원인, 관련성 유무를 파악하는 방법
1) 시각적으로 관련성을 확인한다 : 산포도를 통해 가로축(문제와 결과)과 세로축 (원인 후보 지표)
→ (1) 전체적인 경향 파악, (2) 그룹화, (3) 벗어난 값 주목, (4) 변화점 찾기
2) 통계 지표를 확인한다 (상관계수를 통한 상관분석)
- 엑셀 함수를 통해서도 상관계수 분석 가능 (=CORREL)
EX) 소비자 피해 센터의 활용도를 높이기 위한 변수 분석
- 선정 지표 : 담당자 수ⓐ, 인지도 설문조사 결과ⓑ, 상담건수ⓒ
· 직접 관계인가 상관관계인지 파악하기
- 인과관계와 상관관계는 다름
- 또한 상관관계가 있다고 하더라도 원인은 여럿이거나 더 복잡할 수 있음
→ 상관계수만 도출하기보다는 산포도로 시각화하는 것을 추천
→ 상관관계가 복잡해 보일 때는 전체를 부분으로 나누고 그 범위에서 상관관계 유무를 분석
· 논리를 어떻게 만들어야 할까?
- 주의할 점은 곧바로 해결 방안에 달려들면 안 됨!
EX) 잘못된 논리 프로세스
- 문제 : 거주하는 도시의 인구 문제 - 인구 감소
- 다음 행동 : 음.. 인구 감소를 완화할 수 있는 방안을 생각해보지
- 자료 수집 : 다른 지역은 어떻게 하고 있는지 정보를 봐야겠다
- 아이디어 : 행사 건수도 늘리고 규모도 크게 하자, 지방 특산품 활용한 요리 즐기거나
관광명소 일주하는 프로그램 기획한다 등
▶ 무엇이 문제일까?
- 데이터를 활용하긴 했지만 '인구감소'와 '이벤트 투어를 하면 인구 감소가 완화된다'의
상관관계가 있을까?
▶ 왜 이런 문제가 발생했을까?
- 해결 방안을 제안하기 전에 '원인'을 제대로 분석하는 것이 중요함
· 원인을 제대로 분석하기 위해선 '왜'를 반복해야 한다
EX)
문제 : 매출이 감소했다
왜? : 경쟁사가 가격을 인하했고 방문객 수가 감소했거든
왜? (방문객 수 감소) : 홈페이지 접속자 수가 감소했고 고객 대응이 원활하지 않았어
왜? : 업데이트 빈도가 줄었고 / 매장 직원수가 늘었어
· 데이터를 활용한다 = 판단과 행동으로 이어지는 결과물이 제시된 상태
EX) 교외와 도심 지역의 집세 비교
▼ 가장 잘못된 답변은? 교외 지역의 평균 집세가 도심 지역의 평균 집세보다 낮음
· 답변이 잘못되는 이유는 무엇일까?
1) 단순 평균만 제안한다 = 결과 해석이 한정적으로 밖에 흘러갈 수 없음
2) 표준편차를 이용해 집세의 분산을 표현해본다 하더라도 분산 자체가 주는 값의 의미는 결론이 될 수 없음
· 잘된 답변이 되려면?
시세는 교외가 도심보다 쌉니다. 하지만 선택의 폭을 생각하면 도심이 압도적으로 넓어요. 도심에서
좋은 부동산을 찾아내면 교외 시세보다 싸지만 좋은 집을 구할 수 있을 거예요.
▶ 평균값은 = 시세로, 편차와 분산은 = 선택의 폭으로
▶ 사람들은 편차니 분산이니 이런 것에 크게 관심이 없다~
· 이 책에서 계속해서 강조하고 있는 것
- 데이터 중심이 아닌 목적 중심으로 사고해야 한다는 것!
· 어떻게 해야 데이터에 매몰되지 않는 사고를 할 수 있을까?
- 어떤 범위, 어느 시점의 정보가 필요한가?
- 어떻게 처리, 가공해야 할 것인가?
→ 분석 결과를 중간중간 확인하며 가설을 수정하거나 새로운 데이터를 추가해야 함
· 문제는 구조화에 기반한 논리적 사고를 해야, 당면한 과제에 대한 범위나 분석 영역을 누락 없이
판별할 수 있어야 하는데, 어떻게 해야 한담?
1) 짝을 짓거나 : 대응이 되는 콘셉트 상자를 만들어 서로 연결하기 (대응, 반대 등)
ex) 개인-조직 / 방법론 - 의식 / 있다 - 없다
2) 자기부정 : 내가 생각한 아이디어 자체를 일부러 한 번 더 부정해보기
· 저자가 말하는 데이터 문해력의 최종 정의
스스로 정답에 대해 고민하고 데이터를 무기 삼아 합리적으로 논할 수 있는 능력
저는 이 책을 읽으면서 다시 읽고 싶은 책이 한 가지 떠올랐습니다.
바로 바바라 민토의 <논리의 기술>이란 책입니다. (http://www.yes24.com/Product/Goods/77671422)
이 책은 데이터에 대한 문해력을 필두로 시대가 지나도 변하지 않는 논리적 사고의 본질은 동일하다는 것을 일깨워준 것 같습니다.
한 때 맥킨지 관점의 Logical Thinking이 2000년대 중후반을 유행처럼 지나갔고, 전략 프레임의 실효성 논란도 있었는데요. 데이터가 실무 전반의 의사결정의 기본 언어로 들어온 상황에서 전략적 사고, 구조적 사고, 논리적 사고의 중요성은 다시금 재조명되지 않을까 싶습니다. 데이터라는 단어에 너무 주눅 들기보다 결국 내가 어떤 결론을 도출하고 싶은지에 대한 근거 관계를 만들어 나가는 것이 훨씬 더 중요하다는 것을 이 책을 통해 다시금 깨닫게 되었습니다.