brunch

You can make anything
by writing

C.S.Lewis

by 강한별 May 10. 2016

말로만 말고 숫자를 대봐

말로만 말고 숫자를 대봐 - 

토머스 대븐포트 & 김진호 지음, 김진호 옮김/엠지엠티북스


추천 대상 : 왜 분석적인 사고가 필요한가? 어떤 통계적 기법으로 어떤 문제를 풀 것인가? 에 대한 답을 알고 싶은 사람

추천 정도 :  ★ ★ ★ ★ ☆ 

추천 사유 : 저자분이 딸 팔불출이 심하다는 걸 제외하면 재밌게 읽었다. 꼭 데이터 과학자가 아니어도 숫자를 보고 이해하는 능력은 필요하기 때문에 심심풀이 삼아 보기에도 좋다. 어떻게 분석할 것인가?에 대한 예시도 풍부하게 나오고, 사례도 재밌다. 내가 애완동물을 기르기 적합한 사람인지 아닌지를 정도를 계산할 수 있다거나, 마크 트웨인의 친필 편지가 진품일까를 통계적으로 확인해보는 식인데, 예만 봐도 재밌지 않나요.

개인적으로 데이터 보는 사람에게 중요한 요인을 다시 생각해보게 됐다. 원래도 '상상력'이 중요하다고 생각했는데 상상력이 정말 중요하구나 하고 가산점을 더 주게 되었달까.. 관찰력을 뒷받침 하여 어떤 변수가 영향을 줄 주 상상하는 능력, 사용자가 어떻게 서비스를 사용하고 어떤 감정을 느끼는지 상상하는 능력이 필요하다고 느꼈다



발췌


1장 분석 경영의 새로운 흐름

분석 : 어떤 현상(문제)에 대해서 관련된 자료를 수집한 뒤 이를 분석하여 데이터 속에 숨어 있는 의미 있는 패턴을 찾아내서 문제 해결이나 의사 결정 등에 활용하는 것. 여기서 현상이란 우리의 연구 대상이 되는 자연이나 사회 속의 모든 것으로서 개인의 행동이나 심리까지도 포함. 따라서 분석은 우리가 관심을 갖는 모든 문제를 풀기 위해 적용할 수 있음


연구는 목적에 따라 탐험적, 설명적, 예측적, 인과적 연구로 구분됨

- 탐험적 연구 : 연구 대상(문제)에 대해 알려진 것이 거의 없는 경우. 주로 질적인 접근, 고객, 종업원, 경영층, 혹은 경쟁자들과의 비공식 토론이나 심층 분석, 포커스 그룹 등을 활용

- 설명적 연구 : 관찰, 설문조사 등으로 자료를 수집, 정리하여 주로 빈도, 평균, 분산, 상관관계 등으로 연구 대상의 특징을 설명

- 예측적 연구 : 연구 대상의 특징을 설명하는 것에서 한 걸음 더 나아가 변수 간의 관계를 확인하고 이를 바탕으로 어떤 일이 일어날 것인지를 예측. 실제로 변수 간의 인과관계의 존재 유무가 정확한 예측을 위한 필요조건을 아니다. 변수 간 인과관계, 즉 왜 어떤 일이 일어났는가를 다루는 것은 인과적 연구다

- 인과적 연구 : 주로 원인 변수를 조작하는 실험을 통해 결과 변수에 대한 인과적인 추론을 함. 설명적, 예측적, 인과적 연구는 당연히 분석에 해당한다. 


연구의 과정, 즉 자료가 수집되고 분석되는 방법에 따라 질적 연구와 양적 연구로 구분

- 질적 연구 : 문제에 대한 심층적인 이해를 추구함. 주로 적은 표본으로부터 나온 비구조화된 데이터가 수집되고 비정량적인 기법을 사용

- 양적 연구 : 주로 큰 표본으로부터 구조화된 데이터를 수집하여 통계적, 수학적으로 분석함


- 통계 : 불확실한 상황에서 현명한 의사 결정을 하기 위한 자료 수집, 분류, 분석, 해석, 발표의 체계

- 예측 : 과거 자료와 변수 간의 관계를 이용하여 관심이 되는 변수를 추정

- 데이터 마이닝 : 많은 데이터 속에 숨겨져 있는 유용한 패턴을 추출하여 분류, 군집, 순차 연관 분석, 변칙 탐지 등의 목적으로 사용

- 텍스트 마이닝 : 대규모의 문서 속에 숨겨져 있는 유용한 패턴을 추출하는 것으로 분석 대상이 문서라는 점에서 데이터 마이닝과 차이

- 최적화 : 주어진 제한 조건을 만족하면서 어떤 기준(목적 함수)을 최대화(혹은 최소화)하는 해법을 구하기 위해 수학적 기법을 사용


분석이 중요한 이유는 바로 현명한 의사 결정을 할 수 있도록 매우 유용한 정보를 제공하기 때문


"하지만 그것들은 그냥 숫자일 뿐, '그래서 어떻게 해야하지?' 라는 질문에 답을 주지 않아요." 그녀가 대답을 원한 바로 그 질문은 고객들과의 상담이 그들의 건강과 입원 측면에서 실질적으로 효과를 내고 있느냐는 것이었다


좋은 운전자가 되기 위해서 내연 기관이 어떻게 작동하는지에 대해 반드시 많이 알아야 할 필요가 없는 것처럼, 이제는 분석을 의사 결정에 활용하려고 할 때, 언제나 그 분석 과정이 어떻게 진행되는지를 알아야 할 필요는 없다. 


2장 분석은 어떻게 하나

- 문제 인식 : 분석은 자신이 하고 있는 업무나 또는 관심을 갖고 있는 현상에서 문제를 인식하여 그것을 해결하고자 하는 것으로부터 시작. 문제가 무엇인지, 왜 이문제를 해결해야 하는지, 문제 해결을 통해 무엇을 달성할 것인지를 명확히 하는 것

- 관련 연구 조사 : 문제가 인식되면 다음으로 그 문제와 관련된 기존의 연구들을 조사해야 함

- 모형화(변수 선정) : 모형은 문제(연구 대상)를 의도적으로 단순화한 것을 말하며 모형화는 문제와 본질적으로 관련된 변수만을 추려서 재구성하는 단계. 우리가 인식한 문제들은 대부분 복잡하므로(변수가 많으므로) 단순화할(변수의 수를 줄일) 필요가 있음. 따라서 문제를 그 특성을 잘 대표하는 결정적인 요소만을 추려서 주요 변수로만 나타낸다면 분석이 좀 더 단순해짐

- 자료 수집(변수 측정) : 변수가 선정되면 그 변수들을 측정해야 함. 자료는 변수들의 측정치를 모든 것

- 자료 분석 : 자료가 수집되면 자료를 분석해야 함. 자료는 그 자체만으로는 아무것도 말해주지 않기 때문. 자료 분석이란 나열된 숫자에서 변수 간의 규칙적인 패턴, 즉 변수 간의 관련성을 파악하는 것

- 결과 제시 : 자료 분석을 통해 변수 간의 관련성이 분석되면 그 결과가 의미하는 바를 해석하여 의사결정자에게 구체적인 조언을 하는 것으로 분석 과정이 마무리 됨


3장 분석의 1단계 문제 인식


- 문제 인식의 계기

순수한 호기심(상식, 관찰), 직무 경험, 의사결정 혹은 행동이 필요한 경우, 현안(개인, 기업, 사회, 국가), 기존 이론의 검증 혹은 반박, 프로젝트 제안의 수용


문제 인식 단계에서 가장 중요한 것은 문제가 무엇인지, 왜 이 문제를 해결해야 하는지, 문제 해결을 통해 무엇을 달성할 것인지를 명확히 하는 것이다. 분석의 핵심은 인식된 문제에 대해서 관련된 데이터를 수집, 분석하여 문제 해결에 필요한 정보를 얻는 것이므로, 문제는 대개 가설의 형태로 표현하는 것이 좋다. 가설은 변수들 간의 관계에 대한 잠정적인 믿음이나 주장이며 문제를 명확히 한다는 것은 다음의 예와 같이 문제를 분석을 통하여 검증이 가능한 가설로 표현한다는 의미이다


문제 인식 단계에서 의사결정에 초점을 맞추면 분석과 관련된 이해관계자가 누구인지를 파악할 수 있게 됨


문제 인식 단계에서 당신이 착수하려고 하는 분석의 이해관계자가 누구인지, 그들이 이 문제에 대해서 어떻게 생각하고 있는지를 진지하게 평가할 필요가 있음


1) 당신이 수행할 분석 프로젝트의 성공에 대해 경영진이 관심을 갖고 있는 것이 확실한가?

2) 그들에게 그 문제와 분석의 개요에 대해 설명했는가?

3) 그들은 필요한 자원을 제공하고 분석을 성공적으로 만들기 위해서 필요한 조치를 취할 능력이 있는가?

4) 그들이 의사결정을 위해서 데이터와 분석을 활용하는 것을 지지하는가?

5) 분석 과정과 의사소통 방법이 그들이 평소에 하는 사고와 의사 결정 방식과 일치하는가?

6) 그들에게 정규적으로 피드백과 중간 결과를 제공할 계획이 있는가?


어떤 의사결정에 초점을 맞출 것인가가 정해지면 그 의사결정을 위한 해답이나 통찰력을 어떻게 제공할지를 생각해야 함. 가장 좋은 방법은 데이터가 포함된 스토리로 전달하는 것


- 발생한 일 보고 스토리 : 정보를 시각적으로 나타내는 것이 특히 중요

- CSI 스토리 : 기업의 문제를 계량적 분석으로 풀려고 시도

- 유레카 스토리 : 조직의 전략이나 비즈니스 모델의 중요한 변화와 관련된 특정한 문제에 대해 의도적으로(우연히 그 문제에 마주치는 것과 반대로) 접근함

- 예측 스토리

- 괴짜 과학자 스토리 : 많은 지점을 둔 은행이나 대형 할인점 같은 조직에 적합. 어떤 지점에서는 실험을 하고 다른 지점들은 통제 지점으로 사용하는 것이 쉬우므로

- 설문조사 스토리 : 설문조사는 계량적 연구의 고전적인 방법. 설문조사 분석가는 이미 일어났거나 혹은 지금 일어나고 있는 현상을 조사함. 설문조사를 수행하는 방식도 표본에 영향을 미칠 수 있음


4장 분석의 2단계 관련 연구 조사

- 조사 방법

문제 해결을 위해서는 어떤 변수들이 관련되어 있고 이 변수들은 어떻게 정의되는가?

어떤 데이터를 찾거나 측정해야 하는가?

데이터 분석에는 어떤 기법을 사용해야 할 것인가?

분석 결과를 어떤 식으로 전달하는 것이 가장 효과적인가?


1) 당신의 회사 혹은 조직의 중요한 문제를 풀기 위해서 우선 문제를 명확히 정의했는가?

2) 문제를 해결하기 위한 여러 대안을 고려했는가?

3) 문제와 관련된 이해관계자를 파악하고 그 문제에 관해서 그들과 충분히 소통했는가?

4) 문제를 푸는 당신의 방식을 이해관계자들이 동의하고 또한 그들이 분석 결과를 의사결정에 활용할 것이라고 확신하는가?

5) 문제가 해결되면 그것을 근거로 어떤 의사결정이 내려지고 또한 누가 그 결정을 할 것인지를 확실히 알고 있는가?

6) 문제를 폭넓은 정의로 시작해서 아주 구체적으로 즉 정확한 용어와 문맥으로 표현하고 수집해야 할 데이터와 가능한 결과를 포함하는 문제의 정의로 좁혀갔는가?

7) 문제를 푸는데 당신을 도와줄 수 있는 사람이 있는가?

8) 문제와 관련된 사전 연구가 당신의 조직 안과 밖에 어디에 있는지 체계적으로 탐색했는가?


5장 분석의 3단계 모형화(변수 선정)

모형화 : 복잡한(변수가 많은) 현상(연구 대상 혹은 문제)을 의도적으로 적은 수의 중요한 변수만으로 단순화하는 것. '의도적 단순화'란 구체적으로 특정 문제를 풀기 위해 사소한 변수들은 버리고 중요한 변수들만 취한다는 의미. 어떤 변수를 버리고 어떤 변수를 택할 것인가는 그 변수가 문제 해결 측면에서 얼마나 중요한지에 달려 있음. 또한 단순화 과정에서 마찬가지로 중요한 것은 문제 해결의 목적인데 목적이 다르면 변수의 중요성도 달라지기 때문


6장 분석의 4단계 자료 수집(변수 측정)

명명 척도 : 속성을 나타낼 수 없는 변수들에 대하여 그 속성을 분류하기 위해 숫자를 부여하는 것. 구분하기 위해 사용하는 숫자에 불과하므로 이 숫자들로 사칙연산을 하는 것은 아무런 의미가 없음

서열 척도 : 석차, 선호도 등과 같이 측정 대상의 순서만 매기는 것. 서열 척도 역시 사칙연산이 무의미

등간 척도 : 온도, 지능지수 등과 같이 측정 대상의 순서뿐만 아니라 순서 사이의 간격이 동일한 것. 측정의 기본 단위의 간격이 동일하며, 임의적이지만 원점도 내포하고 있음

비율 척도 : 연령, 무게, 시간, 거리 등과 같이 등간 척도의 특성을 더하여 절대영점을 갖고 있으므로 비율 계산이 가능하여 몇 배인가도 측정할 수 있음


연구자가 당면하고 있는 문제와 직접적으로 관련된 2차 자료를 구할 수 없는 경우에는 조사자가 관찰, 설문조사, 실험을 통하여 직접 자료를 수집하는데(1차 자료라고 함) 이 중에서 어떤 방법으로 측정할 것인가는 해결해야 하는 문제의 성격과 측정해야 하는 변수의 특징에 달려 있음

- 관찰 : 어떤 행동이나 사건, 상황 등을 관찰하여 기록하는 것인데 짧은 시간 내에 이루어지는 행동을 측정하는 경우에 유용

- 설문조사 : 조사 대상자에게 주로 설문지를 이용하여 자료를 얻는 방법인데 직접 관찰하기 어려운 변수를 쉽게 측정하여 다양한 분석을 할 수 있다는 장점 때문에 많이 사용됨. 하지만 깊이 있는 질문이 어렵고 응답률이 낮음


좋은 데이터는 우선 문제(의사결정)와 직접적으로 관련되어야 하고 또한 정확하게 측정된 것이어야 함. 결론적으로 말하면 많은 데이터보다는 다른 데이터, 즉 문제와 관련하여 우리가 원래 사용한 것과는 다른 데이터를 추가하는 것이 더욱 좋음


"내가 잘 쓰는 방법 중 하나는 바로 좋은 데이터를 얻는 것이죠. 많은 데이터가 아니라, 지금까지 그 문제를 풀기 위해 사용했던 것과는 다른 데이터를 말합니다."


"진정한 강점은 독특한 데이터에서 나온다"


지난 수 세기 동안 거의 모든 계량적 분석은 구조화된 데이터를 이용함. (생략) 하지만 20세기 후반에 텍스트 분석이 시작되면서 모든 것이 변하기 시작


많은 빅 데이터 분석이 처음에는 비구조화된 데이터에 초점을 맞춘다. 그러나 하둡이나 맵리듀스와 같은 도구에 의해 처리된 후에는, 구조화된 데이터로 바뀌므로 표준 분석 기법이나 통계 패키지를 사용하여 분석할 수 있음


7장 분석의 5단계 자료 분석

자료는 스스로 아무것도 말해주지 않으므로 자료 분석을 하여 그 속에 내재된 의미, 즉 변수 간의 규칙적인 패턴을 파악해야 함


자료 분석에는 도표와 그래프 같은 기초적인 기법에서부터 매우 정교한 통계적 모형까지 문제의 성격이나 복잡성에 따라 다양한 기법이 사용됨


검은 면적이 넓을수록 해당 분석 기법을 많이 사용하는 것 의미


자료 정리 : 자료가 갖는 특성을 쉽게 파악하기 위해서 표나 그래프로 요약하고 기초적인 통계, 즉 중심화 경향을 나타내는 산술평균, 중위수, 최빈수 등과 흩어진 정도를 나타내는 분산이나 표준편차를 계산하는 것을 말함

변수 관계 파악 : 자료 정리 다음으로 많이 분석되는 것은 변수 간의 관계, 즉 변수간의 일관적인 패턴을 찾는 것

집단 간의 특성을 비교

회귀분석 : 독립변수가 종속 변수에 미치는 영향을 분석하는 기법 중에서 가장 대표적인 것이 회귀분석임. 종속 변수는 연구자가 관심을 갖고 그 변화를 설명하거나 예측하려는 변수이며, 독립변수는 종속 변수에 영향을 미치는 변수들로서 종속변수의 변화를 설명하거나 예측하기 위해서 사용되며 설명변수 혹은 예측변수라고 함


독립변수가 하나인 경우는 단순회귀분석이라고 하고 독립변수가 둘 이상인 경우에는 중회귀분석이라고 함. 종속 변수가 2개의 값만을 갖는 병목변수인 경우(찬성/반대, 구매/비구매, 승/패)에는 로지스틱 회귀분석을 실행. 회귀식이 얼마나 유용한지는 주로 결정계수(R제곱)로 나타내는데 R제곱은 종속 변수 y의 변화를 독립변수들이 얼마나 설명해주는지를 의미함. R제곱은 0에서 1 사이의 값을 갖는데 그 값이 클수록 회귀식의 설명력이 높아짐


8장 분석의 6단계 결과 제시

이 단계를 중요시하지 않는 분석가-우리가 보기에는 형편없는 분석가-는 결과는 '스스로 말한다'라고 믿고 이 단계에 대해서 걱정도 하지 않는다


분석 결과를 듣는 청중이 지루해하거나 이해할 수 없다면 그건 아마도 그들의 잘못이 아닐 것이다


결과 제시는 연구 과정의 개요, 결과 요약, 그리고 문제를 해결하기 위한 권고-굳이 이런 순서는 아니더라도-를 포함해야 한다. 대개는 결과 요약과 권고로 시작하는 것이 가장 좋다. 결과를 제시하는 가장 좋은 방법은 관련된 사람들이 참석하는 회의를 소직해서 발표하고 질의응답을 받는 것임


가장 성공적인 분석가는 데이터로 스토리를 만들어낼 수 있는 사람이며 모든 분석 스토리의 요소는 유사함


좋은 이야기는 취해야 할 행동과 그에 따른 예측되는 결과로 결론을 맺어야 함. 그러기 위해서 분석가는 사전에 주요 이해관계자와 다양한 행동 시나리오에 관해 논의해야 함


중간 부분을 설명하기 전에 결론을 먼저 제시하라. 이 점은 매우 중요하다. 결론을 강하고 당신의 분석을 눈에 띄게 함


당신 이야기의 핵심은 무엇인가? 그 핵심을 가장 결제적으로 이야기 하려면? 당신이 그것을 안다면, 거기서부터 증축할 수 있다


분석을 수행하고 의사소통하는 한 가지 방안을 추천

1) 내가 이해하는 사업 문제

2) 사업에 주는 영향을 나는 어떻게 측정할 것인가

3) 어떤 데이터가 이용 가능한가

4) 최조의 가설

5) 해결안

6) 해결안이 사업에 미치는 영향


이 방안을 활용하는 데이터 과학자들은 각 단계의 결과를 올릴 수 있도록 위키를 만들도록 권장됨


분석가들은 또한 분석 결과를 설명할 때, 그 과정에서 그들이 수행한 활동의 순서에 따라서 설명하려는 경향이 있음. (중략) 분석 결과를 들으려는 청중은 당신이 어떤 과정을 밟았는지에 대해 전혀 관심이 없다. 그들은 결과와 그 결과가 갖는 시사점에만 관심이 있음


9장 분석과 창의성

사람들은 종종 창의력은 분석과는 반대되는 것으로 생각한다. 우선 창의력은 탐구적이고, 자유롭게 사고하고, 영감에 바탕을 두고, 그리고 통찰력이 있는 것으로 생각한다. 반면에 분석은 종종 지루하고, 기계적이고, 그리고 숫자에 의한 것이라고 여김. 하지만 우리는 창의력과 분석은 결코 반대되는 것이 아니라 매우 밀접하게 관련되어 있다고 확신함. 분석을 가장 성공적으로 활용하면 매우 창의적이 되며 또한 창의력은 문제를 성공적으로 분석하기 위한 중요한 요소임


문제 인식 단계에서는 극도로 유용하고 중요. 창의적인 방법으로 문제나 의사결정의 틀을 만들기 위해 많이 노력해야 함. (중략) 창이적으로 문제의 틀을 만들면 그 맥락을 변화시키고, 다른 시각에서 보게 하고, 제약 조건을 줄이거나 제거할 수 있음. (중략) 종종, 분석적 의사결정에서 발휘되는 창의력은 복잡하게 보이는 요인들이 상대적으로 간단하고 특정 가능한 요인들로 예측될 수 있다는 인식에서 비롯. (중략) 당면한 문제와 관련될지 모르는 과거의 연구 결과나 분석적 기법을 확인하는 데는 창의력이 요구됨. 생존 분석 기법을 고객의 평생 가치를 예측하는 데 성공적으로 적용한 사례. (중략) 자료 수집 단계 자체는 지루한 과정일 수 있지만 어떤 데이터를 수집할 것인지를 결정하는 것은 매우 창의적일 수 있음 (중략) 회귀계수의 값과 설명된 분산의 비율에 대해서는 말하지 말라.. 대신에 "만약에 광고 지출이 1달러 증가하면, 평균적으로 수익이 1.29달러 증가할 것이다"와 같은 말을 사용하라


분석 측면에서는 창의성을 '문제 해결과 관련된 변수를 선정하여 이를 측정한뒤 변수들 간이ㅡ 새로운 관련성을 파악하는 능력'으로 정의할 수 있음


통계학자인 토머스 디시는 창의성을 "존재하지 않는 관계를 보는 능력"이라고 정의했다


10장 분석 능력 키우기

평소의 사고가 그 사람의 태도를 형성하고, 그런 태도가 행동으로 이어지고, 계속된 행동은 습관이 되며, 그런 습관이 바로 다른 사람들이 그 사람을 평가하는 중요한 요소로 작용하고, 결과적으로 이 모든 과정이 그의 삶 자체가 된다는 것임. 분석 능력을 키우는 것도 어느 한순간에 하나의 행동으로 키워지는 것이 아님


수학적 지식과 분석적 사고는 완전히 다른 것이다. 수학적 지식과 분석적 사고 간의 차이를 강조하는 이유는 분석적 사고를 잘하는 사람이 되기 위해서는 초등학교 6학년 수준 이상의 수학은 거의 필요하지 않기 떄문이다. 분석가에게 가장 중요한 것은 수학적인 지식보다는 분석적 사고와 태도를 통해서 숫자에 근거를 두고 유용한 정보를 추출할 수 있는 능력


호기심은 어느 분야에서나 배움의 보증서이듯이 분석 능력을 키우는 데도 호기심을 최대로 발휘하는 것이 필요


관련성 : 숫자가 중요한 의미를 가지려면 해당 문제와 직접적으로 관련되어야 함

정확성 : 문제와 관련된 숫자라도 정확하지 않으면 없느니만 못함. 숫자의 정확성은 누가, 어떻게 그 숫자를 만들어냈고, 왜 그런 방법을 사용했는지, 혹시 어떤 의도가 개입되어 있지는 않은지를 생각함으로써 판단 가능

올바른 해석 : 숫자는 그 자체로서 아무런 의미가 없고 그 숫자를 어떻게 해석하느냐가 중요


상관관계는 인과관계가 아니다


퍼센트를 대할 때는 그것이 계산된 실제 숫자를 질문해야 함. 누가 평균 이야기를 한다고 하면 항상 분포나 표준편차를 물어봐야 함


가장 기초 공부 : 기초 통계학, 조사방법론

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari