brunch

You can make anything
by writing

C.S.Lewis

by beyond eyes Mar 21. 2022

'데이터'가 쉬워지는 비결- [서평] 데이터 리터러시

데이터 분석으로 일잘러 소리를 듣고 싶은 분이라면

※ 오늘 볼 도서는 강양석의 <데이터 리터러시>입니다.

※ 본 글은 기획자의 필독서 - [서평] 데이터 문해력과 함께 보시면 더욱 좋습니다.


들어가기 - 데이터의 생각 근육을 길러보고 싶다

지난번 읽었던  <데이터 문해력>이 개인의 데이터 해석 능력에 대한 역량을 기르는 방법을 소개했다면 이번
<데이터 리터러시는> 개인을 넘어 조직 내에서 주어지는 다양한 비즈니스 현황에 대해 데이터를 구축하는 것은 물론 윤리 (데이터 거버넌스), 팀 단위의 데이터 중심의 의사결정 구조를 갖추는 방법, 데이터의 숨겨진 맥락과 의도를 분석해 같은 결과더라도 설득력 있게 전달하기 위한 프레젠테이션 스킬들을 강조하고 있습니다.
둘은 분명 다른 책이지만 <데이터 문해력>과 <데이터 분석가의 숫자유감>을 먼저 읽은 후 이 책을 읽으신다면 기초와 실전을 두루 익힐 수 있을 것이라고 생각합니다.




기억하고 싶은 책의 내용들


[1장. 2020년 우리가 데이터를 쓰는 모습]

·'언젠간 쓸 일이 있겠지' 하며 쌓아둔 데이터를 <다크 데이터>라고 부른다. (뜨끔)
  전 세계 데이터의 80% 이상이 다크 데이터에 해당한다.

· 디지털 대 전환 전략의 끝에는 데이터 축적이 아닌 사용에 있다. 쓰게 하는 것.


[2장. 디지털 대전환의 열쇠, 데이터 리터러시]

·  <데이터 사일로> 현상은 서로 교류하지 않고 폐쇄적 성향을 띠어가는 상태를 의미한다.
    하지만 기업이라면 외부의 경쟁자와 맞서기 위해 기업 내 하위 조직들은 반드시 협력해야 한다.

·  데이터 그 자체로는 그 어떤 문제를 해결해줄 수 없다.

·  데이터에서 시작하면 데이터로 끝난다. 그래서 내가 우리 팀에 항상 묻는 것 역시
    '어떤 질문에 답하기 위해 데이터를 쓰는 것입니까?'입니다. 맥락에 맞게 데이터를 읽어내는
   것이 결국 중요하다는 의미다.

· 4차 산업혁명 시대인 지금 조직에게 가장 요구되는 역량은 '전략적 유연성과 몰입'이다.
  이것이 가능하려면 데이터이고, 데이터의 투명성이 직원들의 자발성을 직접 관리하게 될 것이다.

· 2020년 하버드 비즈니스 리뷰는 '팀의 데이터 리터러시 역량 높이기'라는 칼럼에서 문제 해결 관점
  데이터 리터러시 역량을 다음과 같이 제시했다.

1. 좋은 질문을 할 수 있는 역량
2. 필요한 데이터를 선별하고 검증할 수 있는 역량
3. 데이터 해석 능력을 기반으로 쓸모 있는 결론을 만들어내는 역량
4. 가설 기반 A/B테스트를 수행하여 결과를 판별할 수 있는 역량
5. 의사결정자들도 이해하기 쉽게 분석 결과를 표현할 수 있는 역량
6. 데이터 스토리텔링을 통해 의사결정자들이 전체 그림을 이해하고 분석 결과에 따라 실행하게 하는 역량  


[3장. 개척자들의 데이터 리터러시]

· 개인과 조직의 리터러시 역량은 구분해야 한다.

· 개인 수준 및 분석의 목적별 훈련 내용이 세분화되면 좋다.

· 툴 사용 능력 못지않게 기초 역량 또한 개인 역량에서 중요하다.

· 개인 역량은 데이터로 문제 해결을 위한
  '질문하기 - 발견 - 획득 - 검증 - 조정 - 분석 - 시각화 - 소통 - 평가'가 골고루 반영되어야

  한다.

· 가급적 피교육자가 갖고 있는 공개 가능 데이터로 문제 해결형 실습을 하는 것이 효과적이다.

· 데이터 리터러시 교육에선 자체 수준 진단, 성향 파악, 교수법 전파, 조직 재설계 등이
  유기적으로 진행되어야 한다.



[4장. 데이터 리터러시 접근법 : 말을 배우듯]

· 데이터 리터러시 향상을 위한 기업의 역할이 가장 중요하다.

 - 기업이 나서서 가르쳐야 한다.

· 조직의 데이터 공유 역량이 결여되어 있다는 것은 데이터 접근권이라는 이름 하에
  권한 설정 정책이 오히려 걸림돌이 될 수 있음을 뜻한다

· 결국, 일반 직원들로 하여금 데이터의 힘을 느끼게 하는 것도 중요 요소라고 할 수 있다.

· 데이터의 약 80%는 비정형 데이터다, 그렇다면 조직과 개인의 역할은?
   - 조직은) 비정형 데이터를 개개인이 분석할 수 있도록 최대한 정형화해서 잘 전달해야 할
                모든 책임이 있음 (비정형을 → 정형으로)

   - 개인은) 그렇게 제공된 정형 데이터로 활발히 문제 해결 작업을 수행하면서 어떻게

                비정형 데이터가 생산 적으로 쌓이고 정형화되면 좋을지에 대한 피드백을
                조직에 건네야 함 (정형된 데이터로 → 문제 해결을)

· 개인이 비정형 데이터에 대한 피드백과 이해를 어떻게 할 수 있을까?
  - 그야 물론 '목적'과 '대상'에 집중해서 그 내용을 조직과 명쾌하게 공유하는 것으로 충분!

비정형 데이터의 효율적 생산을 위한 개인의 피드백

· 데이터 마인드를 위해 갖춰야 자세
  - 첫 번째, 증거주의
  - 두 번째, 의무적 회의감과 지적 겸손 (난 틀릴 수 있어)

  - 세 번째, 자신의 주장이 합당한 지 돌아보는 수양의 과정
  - 네 번째, 데이터의 힘과 한계를 동시에 이해

· 데이터 사고력이 중요한 이유?
  -  데이터가 생각을 끌고 가는 것이 아니라 생각이 데이터를 끌어 가야 하기 때문


· 데이터 기반의 문제 해결 과정
  - 문제 정의 - 문제 맥락 파악 - 문제 핵심 원인 지목 - 가설 수립 - 가설 상호 비판 - 가설 검증 어프로치
   설계  - 어프로치 기반 데이터 획득 - 데이터 가공에 따른 가설 진화 - 충분성 관점 추가 분석 점검 -
   데이터 커뮤니케이션


[5장. 데이터 리터러시의 전제조건 : 데이터의 힘을 믿습니까?]

· 데이터와 친해지면 뭐가 좋을까?
  - 남다른 인지력, 좀 더 다양한 관점으로 보다 정확히 파악하고 복잡한 것을 단순화
· 그럼 데이터와 친해지면 판단력까지 좋아지는 걸까?
  = 불확실성에서도 데이터에 힘입어 좋은 판단을 할 수 있을까?

  = 남들은 하지 못하는 판단을 데이터는 하게 해 줄까?

  = 성급한 판단을 데이터가 막아줄 수 있을까?         

· 차트 데이터의 판단력을 높이는 방법 5가지

1. 무엇을 측정한 차트인가? (주제 파악)
2. 어떤 관점들이 사용되었는가? (X, Y 축 읽어보기)
3. 어떤 범례 또는 카테고리가 사용되었나?
4. 어떤 시기를 다루고 있는가? (시점과 기간)
5. 노트 또는 각주는?

· 데이터를 통해 발견한 메시지들을 가지고 주장을 할 때... 올바른 근거라고 말하기 위한 필수 조건은?  올바른 근거의 3대 조건!

1. 사실성 : 이 근거가 사실에 입각한 것... 맞지?
    ex) 잘못 알고 계신데요? (사실성 공격 중)
2. 연관성 : 이 근거는 주장의 메시지와 정말 관련 있는 거지?
    ex) 이게 그거랑 무슨 상관이에요? (연관성 공격 중)
3. 충분성 (★) : 동일한 대 전제하에 상충되는 근거가 존재하지는 않는지?
    ex) 반대되는 근거가 상당히 많은데요? (충분성 공격 중)
    - 소위 '침묵형 거짓말'이라고도 함
       → 예를 들어, 한 식용유 제조사에서 '콩기름 100%로 만들어 콜레스테롤 0%'라 광고
           ▶ 하지만, 타사 식용유도 콩기름 99~100%였고 콩기름 100%라고 해서 콜레스테롤이
               꼭 0%가 아닌 경우도 있었음



[6장. 데이터 리터러시 특강 : 16가지 실전 역량] *여기선 10가지 역량까지만

· 하나, 공감 역량 - 뭐 느껴지는 것 없나요?
  - 데이터를 보면서 '데이터 메시지의 습관적 자기화'를 생활화해야 함

 ex) 반비례 관계 상충관계를 보이는 그래프에선 → 욕심을 버릴 줄 알아야 한다

 ex) 기울기가 완만해지는 그래프 → 한계 효용 체감의 원리

 ex) 계단식 차트에선 → 우리에게 인내가 왜 썼는지, 그 열매는 달콤할 수밖에 없는지

 ex) 스타트업에서 주로 쓰이는 죽음의 협곡 차트에선 → 해뜨기 전의 새벽이 가장 어둡다

 ex) 롱테일 법칙 차트를 보고 → 잘하는 것과 열심히 하는 것은 다릅니다


· 둘, 직관 역량 - 숫자가 튑니다
  -
대표 사례, 국내 주요 테마파크 별 입장객 수 추이 분석해보기

책 본문 230p

 ① 일반적인 분석이라면?

ㄱ. 우리나라 테마파크 산업은 에버랜드가 리딩 하는 군 (1등 찾기)
ㄴ. 전체 테마파크 입장객 수 추이를 보면 현재 산업 전체는 정체 상태야 (연도별 전체 합 보기)
ㄷ. 테마파크를 수도권과 지방, 두 그룹으로 나눠보면 수도권 테마파크 집중도가 큼 (비중 분석)
ㄹ. 경주 월드는 입장객이 최근 지속적인 성장세를 보이니 주목할 필요가 있어 (튀는 데이터 보기)
ㅁ. 시장 점유율과 성장률 고려 시, 부곡 하와이 랜드는 별도 조치가 필요해 (최저 값 보기)
ㅂ. 2007년 롯데 월드 입장객 수가 이례적으로 줄어든 것은 어떤 사건이 있어서야 (튀는 데이터 보기)

▶ 문제는 이렇게 분석하면 '인지'는 할지언정 어떤 행동을 해야 하는지에 대한 action item은 도출되지 않음


② 좀 더 입체적인 분석을 해본다면?
- 상황. 롯데월드의 신규 대표 취임 후, 에버랜드가 n억을 들여 놀이기구를 들여오기로 했음

- 상기 데이터만 가지고 우리 (롯데월드)도 추가 투자를 단행해야 하는지 보고서를 작성해와라고 했다면?

ㅅ. 롯데월드와 에버랜드는 실제로는 경쟁 관계가 아니므로 무리한 투자는 의미가 없다 (추이 분석)

▶ 근거? 2007년 입장객 폭락 당시, 여타 테마파크들의 입장객 증가에 아무 영향을 주지 못했음


③ 반론할 수 있는 근거는?

▶ 2008년까지는 그렇게 해석할 수 있지만, 다시 2010년부터는 어떤 요인에 의해 다시 경쟁 관계가 형성되고 있다는 것을 알 수 있어 둘은 경합관계


· 셋, 사실 파악 역량 - 설마, 잘 못 읽어서 그런 건 아니죠?

- 원천 데이터에 숨어 있는 정보를 끄집어낼 수 있는가?


· 넷, 패턴 파악 역량 - 결대로 썰어봐요

 - 데이터에서 패턴을 파악해내는 능력 = 얼마나 정성스럽게 바라보느냐와 관련이 깊음

   ex) 프랜차이즈의 연도별/지점별 매출 현황 자료
   > 전체 매출의 연평균 성장률, 전체 지점 매출액을 연도별 운영 지점 개수로 나눠 한 곳당 평균 매출 산출,

     개점 시기에 따른 지점 그룹들의 매출 추이 파악 등


· 다섯, 비판 역량 : 사실인가? (사실성) 연관이 있는가? (연관성) 그게 전부인가? (충분성)

  1) 결혼 정보 회사에서 광고에 써야 할 데이터는 무엇일까?
      - 결혼 회원수, 성혼 커플 수 → 이게 정말 고객 입장에서 궁금한 데이터일까?

       - NO, 성혼율보다 보고 싶은 것은 '결혼 유지율

  2) 대 히트를 쳤던 IBK 기업 광고 사례 (송해 아저씨가 나왔던 그 광고)

언제 봐도 반가운 송해 할아버지
1번. IBK 기업은행은 대한민국 국민 모두가 거래할 수 있는 은행입니다.
2번. 기업은행에 예금하면 기업을 살립니다.
3번. 기업이 살아야 일자리가 늘어납니다.

① 연결고리 분석해보기 - 1번과 2번 사이

- 정말 기업은행에 예금하면 기업을 살릴까?

- 기업 입장에서도 은행 대출에 의한 자금 조달이 중요할까?
   > 은행별 중소법인 자금 공급현황, 대소 기업 금융자금 조달현황 자료 확인

- 기업은행에 예금하면 다르 은행보다 기업을 더 잘 살릴까?


② 연결고리 분석해보기 - 2번과 3번 사이

- 기업이 살면 일자리가 늘어나는가?

- 기업이 살아나는 만큼 일자리가 늘고 있는가?


③ IBK 사례가 주는 의미
- 사실성 및 연관성과 달리 충분성은 그 적합한 정도가 상대방에 의해 결정됨 


· 여섯, 지목 역량 - 원하는 게 정확히 어떤 건가요?

- 가령 어느 대기업에서 '북한 시장으로 진출할 수 있게 해 달라'라는 농기계 자회사의 요구가 있었다고 가정

- 어떤 데이터를 통해 북한 시장 진출에 대한 합리성을 판단할 수 있을까

ㄱ. 북한 정권의 개입으로 실제 시장 진출은 쉽지 않음
ㄴ. 농기계에 대한 북한의 수요는 크지 않을 것
ㄷ. 개성공단의 경우처럼, 북한에 진출해도 정치 위험으로 인한 사업 리스크가 큼
ㄹ. 우리 정부의 승인 및 지원이 불투명

→ 이 데이터 가지고 설득이 될까? 장기간 노력하면 극복할 수 있다고 하지 않을까?

→ 더 구조적인 문제를 자극하는 데이터는 무엇이었을까?★

ㅁ. 북한의 유류 상황

· 일곱, 수집 역량 - 넝마 주이세요?

- 좋은 메시지가 만들어지려면 메시지 자체가 예리하게 조준되어야 하고 데이터는 강력한 근거로 지원해야 함

- 데이터 수집 방법의 2가지

  ① 프라이머리 리서치 : 인터뷰 등 직접 누군가 물어봐서 알아내기

  ② 세컨더리 리서치 : 보고서 등 문헌을 중심으로 정보를 취하는 세컨더리 리서치


· 여덟, 대체 데이터 생산 역량 - 데이터가 없으면 분석은 끝날까?

1) MISSION : 최근 수백억 규모로 지어진 롤러코스터가 ROI 관점에서 얼마나 효과적인 투자 건인지 평가

 

롤러코스터에 의한 매출 증가분, 근데 이것만 가지고 계산이 될까?

2) 위 식이 순 증가분에 대한 정확한 접근이 될 수 없는 이유

 - 가령, 롤러코스터 설치 후 100명의 고객이 왔는데 실제론 70명만 탑승했다면?
   → 물론 30명은 다른 기구나 먹거리에 비용을 지출했겠지만, 실제로 탄 사람의 수에 객단가를 곱하는
       방식을 사용하면 누락됨!
 - 또한, 롤러코스터를 탑승한 70명이 원래는 이걸 타러 온 게 아니라 우연히 탑승했다면?

   → 롤러코스터가 없어도 테마파크에 방문했을 테니 이걸 '순'증가분이라고 말하기에도 무리가 있음
★ 이렇게 하향식 분석 방법을 사용하게 되면... 다중으로 발생하는 간극 효과를 구분해내는 어려움이ㅠ

- 어떻게 해야 할까? 그냥 사장님한테 가서 못 구하는 데이터라고 할까? no


3) 대안 : 롤러코스터에 의한 이용객 순증가분을 역으로 표현해보자!
   = 롤러코스터가 없었다면 테마파크에 오지 않았을 사람의 수!

우리가 알아보려고 하는 데이터는 2 사분면과 3 사분면에 있는 이용객

  - 어떻게 확인할 수 있을까?
     → "만약 롤러코스터가 없었다면, 테마파크를 방문하지 않았을까요?"라는 설문을 통해서!


· 아홉, 맥락 파악 역량 -  누울 자리를 보고 다릴 뻗어라

- 예시) 2차 세계 대전 당시 전투를 마친 비행기들을 대상으로 어느 부분에 총알을 많이 받았는지를 조사
- 대안) 피탄의 흔적이 없는 곳을 보강해야 한다! 왜냐면 전투에서 돌아오지 못한 비행기는 그곳을 맞았을 것
  (생존 편향 오류의 문제가 있지만, 분석 맥락에 대한 이해가 데이터 분석에서 결정적 역할을 함)


· 열, 어프로치 설계 역량

- 주어진 데이터를 가지고 분석을 잘하기 위해선 어프로치 설계를 잘해야 함

- 어프로치는 크게 바텀업과 탑다운 방식으로 구분 가능
   > 바텀업 방식 : 세부 시장에 대한 정보가 충분할 때

   > 탑다운 : 대표 지표들을 통해 개괄적으로 시장 규모를 구하는 방식


[7장. 맺으며 : 데이터 리터러시 닷숍 프로젝트]

· 새로운 시장을 개척하거나 과거에 한 번도 해본 적 없는 실험을 현재 진행 중인 조직이라면?
  - 실증주의를 기초로 하는 데이터 기반의 소통 문화가 매우 중요

· 큰 의사 결정을 한 번에 하기보다 잘게 나누어 결정을 자주 하는 한계적 사고, 가설을 정하고 검증하는
  방식의 사고가 필요



맺으며- 이 책을 읽고 느낀 점

1. 문화는 위로부터 시작되어야 한다.
- 결국 TOP-DOWN의 의지가 중요한다는 점, 제 아무리 직원이 노력한다 하더라도 증거 기반의

  업무 분위기가 만들어지지 않으면 무용 지물


2. 측정해야 하고, 측정할 수 있게끔 판이 만들어져야 하며, 이게 끊기면 안 된다.

- 측정 불가? 관리할 수 없다는 생각으로 일하기

- 무엇을 가지고 측정할 수 있는지 끊임없이 생각하며 없다면 측정할 수 있는 기반을 만들자.
- 측정할 수 있다는 것은 불확실성을 줄일 수 있다고 봐야 한다.


3. 데이터 접근을 누구나 쉽게 만들어야 한다.

- 참 부끄러운 일이지만, 최근에 사내에서 모 대학교와 데이터 분석 산학 프로젝트를 진행했다.

- 프로젝트가 끝나고 대학교 친구들의 말이 기억에 남는다.

저희가 다양한 기업들과 프로젝트를 하고 있지만, 이곳처럼 데이터 받기가 어려운 곳은 없었어요. A데이터 받는데 3일, B데이터 받는데 7일, C데이터는 시스템 과부하로 아예 추출 불가..

4. 제발 작게라도 불확실성을 측정해보자.

- 데이터 기반의 의사결정을 가지고 자칫 100% 확신의 증거로 생각하는 사람들이 있음

- 중요한 건 개선할 현안 과제를 관리가 가능한 데이터로 증명해 보이려 했다는 것,
  그리고 이것이 성과까지 좋다면 금상첨화! 자라나는 씨앗에게 내일 꽃이 필 것을 기대하지 말자.


5. 실패를 용인해주는 문화가 있어야 하며 답이 아닌 '합의'만 존재한다.

- 데이터 기반 의사결정의 또 다른 말은 '가설 설정'이 아닐까 싶다.

- 가설은 곧 언제나 틀릴 수 있음을 의미하기 때문에 실패한 가설에 대해 나무라지 않는 리더들의 태도가, 훈수 두려는 태도가 지양되어야 한다.

- 때문에 답이 아닌 '합의'를 통해 최적의 답을 찾아가는 방식의 의사 결정 구조가 만들어져야 한다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari