brunch

You can make anything
by writing

C.S.Lewis

by 강한별 Nov 30. 2015

앞으로 데이터 분석을 시작하려는 사람을 위한 책

도서 정보


앞으로 데이터 분석을 시작하려는 사람을 위한 책 -

구도 다쿠야 지음, 김정환 옮김/루비페이퍼


추천 대상 :  데이터 분석 비기너

추천 정도 :  ★ ★ ★ ★ ★

추천 사유 :  아 다른 어떤 데이터 분석 입문책보다 이 한 권이 훨씬 낫다. 데이터 분석에 관심이 있지만 어떻게 조직에 적용해야 할지, 어떤 사람이 필요한지(되어야 하는지) 궁금하고 어떻게 데이터 분석하는지 궁금한 모든 사람



발췌


데이터 분석의 가장 큰 효과는 '의사 결정 프로세스의 최적화'다.  p.15


협업 필터링 :  많은 사용자의 기호 정보와 행동 정보를 축적한 다음 어떤 사용자와 비슷한 행동을 하는 사용자들의 기호 정보를 바탕으로 그 사용자의 기호를 추측하는 방법


빈도주의 통계(Frequentist Statistics) : 임의의 사건이 발생하는 빈도(빈도 분포)를 확률이라고 정의하는 발상


베이지안 통계(Bayesian Statistics) : 주관주의 확률론이라고도 함. 복수의 가설을 비교할 때 어느 가설이 그럴싸한 확률인지 정의하는 발상


통계는 평균과 분산의 과학으로, 평균에서 벗어날수록 데이터의 미분값(변화의 정도)이 다른 측면을 보이기 시작한다는 특징이 있다. (중략) 앞의 예를 들면, 감축 목표가 되는 절대값은 같더라도 투입 변수가 되는 감축 노력이라는 변수의 증가분이나 비용은 지수 함수적으로 증가하는 현상이다. (중략) 단순히 절대값을 선형적으로 비교해서는 안 된다.  ex. 한계 비용 체증의 법칙


실패하지 않는 데이터 분석의 요건

1. 분석 대상의 데이터를 가지고 있으며 분석 기반이 확립되어 있다

2. 데이터 분석의 목적과 현재의 경영과제를 이해하고 있다

3. 실행팀이 첨단 기술을 획득하려는 의욕이 가득하며, IT뿐만 아니라 업계 전문 지식이나 적용해야 할 수리통계, 기계학습을 올바르게 인식하고 있다

4. 경영진이 리더쉽을 갑고 프로젝트를 지원하고 있다

5. 시작한 일은 반드시 완수한다는 열정과 기획 발상력이 풍부한 인재를 모아 개인이 아닌 조직의 능력이 최대화시키고 있다


이처럼 전문성과 배경이 다른 다양한 사람들이 하나의 프로젝트를 위해 모여서 협력할 경우, 서로가 상대를 신뢰해 자신의 성과물을 안심하고 넘길 수 있느냐가 성패를 좌우한다. 그러므로 리더는 최고의 멤버들을 모아서 명쾌한 비전과 도착점을 제시함은 물론이고 그들이 전체 최적을 실현할 수 있도록 협력하기 용이한 환경을 만들어야 한다.


분석은 어디까지나 시장 설계나 비즈니스 전략, 제도 설계의 논거 중 일부에 불과하므로 분석 자체를 목적으로 삼아서는 안 된다는 점을 철저히 교육받았다. 요컨대 목적에 따라 통계나 분석 수법을 올바르게 실천해 결과를 이끌어내는 것이 중요하며, 이를 위해 분석 담당자는 단순히 분석 자체에 재미를 느끼는 것으로 끝내서는 안 된다.


분석을 무기로 삼는 조직의 정공법

1. 처음부터 전체 최적을 지향한다

- 달리 말하면 전체 최적을 지향함으로써 모두가 만족하는 시스템을 만드는 것이 바로 프로젝트를 성공시키는 비결이다

2. 임팩트가 큰 부분부터 착수한다

3. 강력한 리더쉽의 존재

- 책임자에게 리더쉽이 있느냐. 그리고 전체 최적에 필요한 이타적인 정신을 발휘할 수 있느냐가 결과를 크게 좌우한다

4. 힘의 원천은 팀 편성에서 나온다

- 권한 부여형 팀워크(톱다운형으로 비전을 제시하면서 목적을 이루기 위해 팀의 멤버들에게 권한을 대담하게 위임하고 신뢰 관계를 구축해 나간다. 현장의 자주성을 이끌어내 성과를 높이는 팀워크 방식)


평균, 분산, 표준편차를 이해한다

올바른 판단은 평균값이 아니라 득점 분포가 '얼마나 흩어져 있는가?'에 주목해야 한다


그래프 보는 법 :

히스토그램이 일반적인 막대그래프와 다른 점은 막대의 넓이가 도수(각 계급에 해당하는 수치)를 나타낸다는 점이다.

확률 분포 : 비율일 경우는 세로축의 도수를 데이터의 개수로 나눠서 비율을 바꾼 다음 그래트로 만든다.


데이터 분석은 우리가 사는 이 세상에서 볼 수 있는 다양한 '사건이나 현상의 들쭉날쭉함을 간파하는 것'이라고 단언할 수 있다. 이 들쭉날쭉한 정도를 조사하기 위한 계산이 '분산'이다. (차이의 평균값을 제곱해 합하고, 데이터 수로 나눈다)


분산을 제곱근으로 되돌리면 표준편차


표준편차로 특수 사례를 정확히 파악한다. 표준편차로 과잉 발주를 방지한다. ex.슈하트 관리도


변동 계수로 서로 다른 속성을 비교한다.

'변동계수'도 들쭉날쭉함을 간파하기 위한 수법인데, 표준 편차와는 달리 속성이 다를 경우의 비교에 효과적이다. '변동계수'를 이용하면 조건이 크게 다른 그룹 간의 비교도 할 수 있다. 변동 계수는 표준 편차를 평균으로 나눠서 구한다.


표준 편차 : 평균에서의 들쭉날쭉함을 보기 위한 지표

변동 계수 : 상대적인 들쭉날쭉함을 보기 위한 지표


알아두면 도움이 되는 분석수법

1. 요약 통계량

자사 서비스 해약자의 속성 정보와 서비스 이용 이력의 요약 통계량을 추출해 특히 해약이 많은 그룹을 특정한다. 해약 방지 전략을 세울 때 활용 가능


고객층의 측정, 상품 카테고리별로 구매자 속성 정보의 요약 통계량을 산출한다. 상품 카테고리별로 구매 수요가 높은 고객층을 파악함


데이터 분포의 특징을 나타내는 통계량


분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 자주 산출됨


평균값 : 모든 데이터의 합계를 데이터의 개수로 나눈 값

표준 편차와 변동 계수 : 데이터가 얼마나 들쭉날쭉한가?를 파악할 수 있다


왜도와 첨도 : 데이터 분포의 형상을 파악할 수 있다. 왜도는 분포의 좌우로 치우친 정도를 나타내며, 첨도는 분포가 얼마나 뾰족한가를 나타낸다.


중앙값 : 정확히 한가운데의 데이터가 어디에 있는가?를 파악할 수 있음. 실태를 파악하고 싶을 때는 평균값 대신 중앙값을 사용하기도 함


최빈값 : 가장 많은 그룹이 어디에 있는가?를 파악할 수 있음


베이지안 확률

스팸 메일의 필터링. 지속적으로 확률을 갱신해 스팸 메일을 판정한다.


베이지안 확률은 극단적으로 말하면 감이나 경험을 바탕으로 한 확률에 입수한 데이터의 결과를 반영시켜 새로운 확률을 산출하는 분석 수법이다


주어진 정보를 이용해 다시 계산한 확률을 ‘사후확률’이라고 부름


상관 분석

서비스 해약자의 경향 분석. 자사 서비스의 해약 유무에 관한 정보와 고객 속성 정보를 상관 분석해 서비스 해약을 하기 쉬운 사람의 경향을 파악


판매 실적과 연관성이 큰 특징을 추출.


두 데이터의 연계성을 분석하는 수법. ‘상관 계수’는 상관 분석의 지표의 일종임


상관 계수 :

두 데이터가 모두 수치 데이터일 때 사용

상관 계수 범위는 -1~+1임

상관 계수가 1에 가까운 양의 값이라면 두 데이터가 양의 상관 관계임을 의미함. 요컨대 한쪽 데이터가 머질수록 다른 쪽 데이터도 커지는 관계

상관 계수가 마이너스 1에 가까운 음의 값이면 두 데이터는 음의 상관관계임


상관비 :

한쪽 데이터는 수치 데이터이고 다른 데이터는 분류값일 때 사용

상관비의 범위는 0~1임

상관비가 1에 가까울수록 서로 상관관계가 있음을 의미함


독립성 검정

두 데이터가 모두 카테고리값일 때 사용함(ex. 직업과 서비스 해약의 관계)

x(카이) 제곱값을 계산해 p값을 얻음

p값이 작을수록 서로 상관관계가 있음을 의미

p값이 0.05를 밑돌면 상관관계가 있다고 판단하는 경우가 많음


K-평균법

고객의 세분화, 고객의 속성 정보나 서비스 이용 이력 등을 기준으로 하는 특성에 입각해 분류할 수 있게 됨. 매출에 공헌하는 우량 고객의 세분화 등


클러스터링 기법의 일종.

그룹 분류 기준을 무작정 늘리면 안 된

그룹 수를 잘 설정해야 함

그룹 수를 바꾸면서 K-평균법을 반복 실시해 유의미한 결과를 이끌어내는 조율 작업을 해야 한다.


협업 필터링

상품 추천에 사용하거나 환자별로 질병의 잠재 리스크를 산출


협업 필터링은 수많은 사용자의 행동 이력을 바탕으로 다른 사용자의 기호를 예측하는 분석 수법


데이터 결손을 잘 생각해야 한다. 결손 정도는 어느 정도인지 데이터는 얼마나 확보해야 하는지를 사전에 충분히 검토해야 한다


분산 분석

캠페인의 효과 측정. 쿠폰 배포, 가격 인하 등 캠페인 내용이나 실시 유무 등의 조건에 따라 각각의 효과를 측정


분산 분석은 복수의 그룹을 비교할 때 분산을 계산함으로써 그룹과 그룹 사이에 통계적인 차이가 있다고 할 수 있는지, 혹은 차이가 없다고 할 수 있는지를 판정하는 수법이다


마케팅 분야에서는 캠페인의 효과를 측정할 때 자주 이용하며, 다중 회귀 분석이나 로지스틱 회귀 분석 모델의 신뢰도를 측정할 때도 사용한다


분산 분석을 실시할 때 먼저 ‘집단 내’와 ‘집단 간’의 개념을 알아주면 좋다. 집단 내는 ‘같은 그룹 안’이라는 의미로, 집단 간은 다른 그룹 간이라는 의미다. 분산 분석에서는 ‘집단 내의 들쭉날쭉함’과 ‘집단 간의 들쭉날쭉함’을 비교한 다음 그 비를 기준으로 요인인 ‘집단’에 의미가 있는지를 판정한다. 집단 간과 집단 내의 들쭉날쭉함을 나타내는 ‘평균 제곱함’을 산출하고 제곱함의 비를 구해 F값을 계산한다. 그리고 마지막으로 F-분포표를 이용해 F값이 통계적으로 유의미할 만큼 큰지 판정한다. 최근에는 엑셀의 FDIST 함수를 사용해 확인할 수 있다.

변수가 여러 개일 경우(다원 배치 분산 분석) 상호 작용이나 F-검정(F-분포를 이용한 유의성 검정) 후의 다중 비교 같은 수법을 사용해야 한다


다중 회귀 분석

판매 예측, 과거의 판매 경향이나 소셜 미디어의 반응 수를 바탕으로 판매 수를 예측한다. 예측 결과를 바탕으로 발주량을 조정해 재고 부족 또는 재고 과다 문제를 개선한다


다변량 분석의 일종으로 복수의 데이터를 바탕으로 어떤 하나의 데이터를 예측하는 모델이다. 종속 변수(목적 변수)와 독립변수(설명 변수)로 나뉜다.


독립 변수가 분석 결과의 정확도를 좌우하기 때문에 종속 변수가 상관관계가 큰 변수를 선택하는 것이 중요


계수를 통해 독립변수의 가중치를 계산하며, 오차는 e로 계산한다


다중 공선성을 유의해야 한다. 다중 공선성은 독립 변수 사이에 상관관계가 있는 상태이다. 투입할 독립 변수 사이의 상관관계를 분석 할 것을 권한다. 정확도를 판별하는 방법(F 검정)이나 오차 e가 정규 분포를 따르는지를 알아둬야 한다


로지스틱 회귀 분석

구매율 예측, 상품별로 구매 실적과 고객 속성을 바탕으로 로지스틱 회귀모델을 만든다. 이를 통해 신규 고객이 구매할 확률이 가장 높은 상품을 제안할 수 있게 된다


어떤 사건의 발생 확률을 예측하는 분석 수법이다. 다중 회귀 분석과 마찬가지로 복수의 독립 변수를 곱해서 발생 확률을 산출한다. 로지스틱 회귀 분석은 다중 회귀 분석과 달리 발생 확률이 0~100 퍼센트의 범위에 수렴하도록 만들어졌다


로지스틱 회귀 분석의 모델식에서는 좌변에 반드시 로그가 놓인다. 이와 같이 로그를 취하는 것을 '로짓 변환(Logit Transformation)'이라고 부르며, 이 변환을 하면 확률은 반드시 0~100 퍼센트에 수렴한다


다중 회귀 분석과 마찬가지로 발생 확률과 상관 관계가 있는 변수를 독립 변수로 사용하는 것이 바람직하다


"일단 해보자가 최악"이다

데이터 분석을 실시할 때 '작게 시작해 크게 키우는' 방법부터 시작하는 경우가 많다.


중요한 것은 '발사대'와 '착지점'

데이터를 분석할 때는 목적과 도착점을 설정하고 그 도착점을 지향하기에 충분한 경영 상황인지, 업무 과제가 있는지, 데이터와 처리 기반이 존재하는지 확인하는 것이 중요하다. 이 가운데 특히 중요한 것은 '발사대'와 '착지점'이다.


1. 목적(기획 구상)의 입안

2. 데이터 분석을 통해 해결해야 할 과제의 인식과 우선 순위 결정

3. 구조화 데이터, 센서 정보나 로그 데이터 등을 취득할 IT 기반

4. 분석 대상이 되는 데이터

5. 데이터를 분석하기 위한 소프트 웨어 하드 웨어 환경

6. 과제 해결을 향한 리더쉽과 열정


부족한 데이터는 보충하면 된다. 1. '목적(기획 구상)의 입안'과 목적 입안을 위한 2. '데이터 분석을 통해 해결해랴 할 과제의 인식과 우선 순위 결정', 그리고 6.'과제 해결을 향한 리더쉽과 열정' 이 세 가지이다


전체 최적을 노리지 않으면 의미가 없다. 데이터 분석을 하는 의미는 데이터에서 기업 전체의 성과를 높일 방법을 이끌어내 실현하는 데 있다. 설령 프로젝트의 제1단계는 특정 부서나 사업부만의 부분 최적이더라도 최종적으로는 기업의 전체 최적을 지향해야 한다.


통계는 어디까지나 집약값이다. 근삿값을 내는 것의 위험성이 종종 나타난다.


사람은 데이터가 올바르다고 해서 반드시 움직이지는 않는다 ;

사람을 움직이려면 다음 세 가지가 필요하다.

1. 경영층이 현장에 프로젝트의 우선도를 알린다. 그리고 아울러 철저하고 공정한 인사 평가 시스템을 정비한다.

2. 성공했을 때 가장 강렬한 인상을 줄 수 있는 영역부터 착수한다.

3. 데이터가 암시하는 가설을 구체적인 시책에 반영하기 전에 현장 담당자를 만나 이해하고 수긍할 때까지 설명한다.


따라서 분석 결과를 이, 활용하기 위한 중요한 전제는 하향식으로 메시지를 발신하면서 현장을 활용하는 커뮤니케이션 접근법이다. 또한 데이터 분석팀은 프로젝트의 최종 단계뿐만 아니라 중간 단계에서도 기회가 있을 때마다 현장과 커뮤니케이션을 해야 한다.


데이터를 '활용할' 사람을 키운다 ;

1. 프로젝트 전체를 내다보는 구상력

2. 주위의 참여를 이끌어내는 현장력

3. 통계학과 데이터 분석의 기초적 지식


방대한 데이터 속에서 지침이 되는 가설과 유의미한 모델을 찾아내고 그것을 '내비게이션'으로 만들어 현장을 변혁으로 이끌려면 무미건조한 데이터를 피가 흐르는 해결책으로 변신시켜야 한다. 이를 위해 최종 단계에서 가장 중요한 것은 '대화력', '이해력', '인간력' 이라고도 할 수 있는 힘이다. 같은 내용을 전하더라도 처지가 다르면 관심의 대상도 리터러시도 달라진다. 경영층에는 경영층의 마음을 파고드는 말, 현장에는 현장의 마음을 파고드는 말로 양자를 연결해 프로젝트의 일체감을 조성하는 것 또한 프로젝트 리더의 중요한 임무라고 할 수 있다.


경영상의 과제 해결을 목적으로 삼는 데이터 과학자의 경우는 경영 간부 와의 커뮤니케이션은 물론이고 현상과의 커뮤니케이션을 얼마나 할 수 있는냐에 따라 실행력과 영향도가 크게 달라진다


프로젝트를 진행하는 과정에서 단독으로 수학이나 통계에 관한 전문 지식을 활용하며 진행할 수 있는 것은 수리 모델링 정도다. 데이터 분석 전체에서 이 작업이 차지하는 시간과 노력의 비율이 얼마나 될 것 같은가?


현장에서 일하는 사람들에게는 통계학은 자신과 인연이 먼 학문일 경우가 보통이다. 그러므로 같은 직종의 동료와 대화할 때 쓰던 말을 그대로 현장에서도 써서는 안 된다. 전문 용어는 알기 쉽게 풀어서 말해야 하며, 복잡한 개념은 다른 표현으로 바꾸거나 그림을 동원해 이해를 도와야 할 것이다. 다시 한 번 말하지만, 데이터 분석은 결단을 위한 도구일 뿐 그 자체가 목적이 될 수는 없다.


이해하기 어려운 내용에 대해 전문가가 아닌 사람과 의사소통을 할 수 있는 커뮤니케이션 능력과 닝닝이 상사의 판단을 기다리지 않고 그때그때 정확하게 상황을 판단하며 최적화를 향해 행동할 수 있을 정도의 '자율성'이 필요하다.


데이터 분석을 경영에 활용한다

(단계 1) 필요한 멤버를 모은다

리더쉽을 확보해 '개개인'으로서만이 아니라 하나의 팀으로 유기적으로 기능하는 데이터 분석팀을 조직한다
- 데이터 과학자에게 요구되는소양이나 능력을 최대한 분해한 다음 각 영역의 전문가를 사내에서 찾아내 조직화하는 방법을 추천한다
1) 특출한 능력이 있는 멤버를 고른다

- 팀의 멤버 중에는 이공계 학부에서 공부하고 프로그래밍의 소양을 갖춘 인재가 있는 것이 바람직하다. 그러나 그런 인재가 없더라도 데이터 처리에 최소한 필요한 SQL 등을 공부할 의욕과 최소한의 지식이 있다면 OK

- 임팩트 분석을 경험했구나 상세한 경영 지표를 접할 기회가 많은 부서에서 단련되어 숫자에 강하기로 정평이 나 있는 사람은 특히 유망하다

- 학습 의욕이 높은 사람

- 데이터 분석은 다양성을 지향한다. 따라서 분석 프로젝트에 관여하는 사람들에게도 당연히 다양성이 요구된다. 사내의 무의미한 관행을 타파할 수 있는, 업무 수행의 핵심이 되는 능력이 뛰어난 인재를 선발하자

2) 실적보다 잠재력을 중시한다

- 과거의 성공 사례가 그대로 통용되리라는 것은 상당히 낙관적인 생각이다. 애초에 데이터 분석이 지향하는 바는 미지의 성공 사례를 획득하는 것이다. 그렇다면 과거의 실적을 중시하는 자세는 모순이 아닐까?

3) 세 가지 리더쉽을 확보한다

- 데이터 분석 결과를 현장의 업무에 반영할 때 현장의 힘만으로는 극복할 수 없는 장해물에 부딪힐 경우도 있다. 그럴 때 경영 총수의 이해와 관여가 있는 것과 없는 것은 해결 속도가 크게 달라진다

- 프로젝트 리더는 무엇을 해야 할까?

(1) 프로젝트에 꼭 필요한 전문성을 지닌 인재를 모은다
(2) '지시'가 아니라 '암시'를 줘서 자율형 멤버를 키운다

(3) 멤버가 역량을 발휘하기 용이한 환경을 만든다

(4) 경영 과제를 목표나 KPI에 반영하고 철저히 달성시킨다

- 데이터 분석 프로젝트는 사업이나 부문의 틀을 뛰어넘은 자원이 필요하다. 프로젝트나 최종적인 도착점에 대한 '당사자 의식'과 '열의를 지속하는 것도 지식이나 능력과 동등하게 중요하다. '지시 대기형'이 아니라 '제안형'으로 행동하는 것, 즉 '자율적'으로 프로젝트에 임하는 것이다.

- 팀 멤버는 무엇을 해야 할까?

(1) 가진 전문성을 유감 없이 발휘한다

(2) 당사자 의식과 열의를 갖고 프로젝트에 몰두 한다.

(3) '지시 대기형'이 아니라 '제안형'이 된다.

(4) 자신의 전문 분야 이외의 업무를 담당하는 멤버와도 협력 관계를 쌓는다.

- 프로젝트 멤버에게 요구되는 기술 : 처지나 역할에 따라 요구되는 전문성에 차이가 있다. 물론 데이터 분석의 대상이 되는 경영상의 과제에 따라서도 멤버에게 요구되는 능력이 달라진다.


(단계 2) 목적을 정한다
기획과 가설 구상력을 갖추고 그 기획의 오더 오브 매그니튜드(영향도)를 살피면서 의사 결정에 필요한 분석을 하기 위한 '출발점'과 '착지점'을 정의한다.

- 도착점과 목표는 비슷하면서도 다르다 :

도착점 : 최종적으로 해결하고나 하는 경영 과제
목표 : 가장 효율적으로 도착점에 다가가기 위한 마일스톤

KPI : 마일스톤을 얼마나 달성했는지 측정하는 것

- 그러므로 성장할 가능성이 낮은 상품군에 예산을 낭비하지 말고 효과를 기대할 수 있는 상품군을 계획적, 포괄적으로 지원하는 것이 중요하다

- 사전에 설정한 도착점과 가진 데이터를 검증해 그 분석 프로세스가 정말 필요한 것인지 냉정히 판단해야 한다.

- 아무리 당사자에게 흥미로운 발견이라고 해도 기업에 투자액을 웃도는 이익을 안겨 주지 못한다면 비즈니스적으로는 손실일 뿐이다


(단계 3) 데이터를 처리한다

착지점에 도달하기 위한 데이터 해석을 하는 데 필요한 추출, 변환, 집약 처리방식을 결정해 실행한다.

- 데이터의 정확성이 100 퍼센트 담보되어야 하느냐 하면 반드시 그렇지는 않다. 가령 정확성이 20퍼센트 정도라면 20퍼센트의, 80퍼센트라면 80퍼센트의 정확도로 가설이라든가 예측 모델을 만들 수 있다. 중요한 점은 그 전제를 제시하는 것이다.

- 퀵윈(Quick Win) : 부분적으로 접근하는 방식
규모는 작아도 결과에 따라서는 장기적으로 확대가 가능한 잠재력을 보일 수 있기 때문에 사내에서 받아들여지기 용이하다는 특징이 있다. 퀵윈은 일반화 선형 모델에도 기준 변수를 두지 않는 탐색적 자료 분석에도 적용할 수 있다. 그밖에 분석할 만큼 데이터가 충분하지 않더라도 결손 보완을 실시하거나 결손치의 존재를 허용할 수 있는 의사 결정 트리 분석 등의 알고리즘을 적용하면 분석이 가능하다

- 데이터가 부족해도 분석을 해나간다는 쪽을 선택했다면 이와 병행해서 부족한 데이터의 보충, 데이터 베이스의 고도화 같은 시책을 실시해야 한다. 무엇을 위해 각 분석을 하는지에 대해 경영 총수와 프로젝트 팀이 사전에 의견 일치를 봐야한다.

- 데이터에서 비롯되는 리스트의 점검표
분석 목적과 KPI를 고려한 데이터인가?

데이터의 추출원이 하나인가? 또는 각 추출원이 나타내는 변수 관계를 신뢰할 수 있는가?

분석을 실시하기에 충분한 양의 데이터가 있는가?

수집 상황, 조건, 배경 등을 신뢰할 수 있는 질 높은 데이터인가?

데이터에 문제가 발생했을 때 대응 가능한 팀 체제인가?

개인 정보 보호 등 데이터 책임 소재를 명확히 하고 있는가?


(단계 4) 모델링을 한다

가설을 바탕으로 검증과 모델을 구축하고 기계 학습의 기초를 형성해 이론과 운용을 연결한다

- 데이터 분석 만으로는 가설을 만들 수 없다. 그러므로 이런 상황에서는 데이터 분석팀이 직접 현장에 가서 담당자의 이야기를 들어 봐야 한다. 이와 같이 데이터에서 도출된 상관관계와 현장에서 축적된 경험, 지혜를 결합해 더욱 정확도 높은 가설을 만들어 나가는 것이야 말로 데이터 분석의 진수이자 가장 흥분되는 일이다.

- 우리가 매일 마주 대하는 것은 사실 '데이터'가 아니다. 그 데이터의 배후에 있는 사람들의 행위다. 그러므로 해결 결과를 인간의 행위에 가까운, 즉 행동 가능한 형태로 구체화해야 한다.

- 또 데이터라는 것은 어떤 순간의 단면을 정확하게 파악할 때는 편리하지만, 그 그늘에 숨겨져 보이지 않는 것도 있기 마련이다. 이때 중요한 것이 시간 축이다. 편차에도 두 계통이 있어서, 단 시간에 발생한 급격한 반응(미분의 기울기와 같은 지표)과 장기간에 걸쳐 조금씩 축적된 반응(적본의 기울기와 같은 지표)이 있다. 흔히 전자는 '폭발', 후자는 '불만' 등으로 표현한다. 그런데 후자는 많은 기업이 긴급성이 낮다고 판단하고 간과하는 경향이 있다

- "창조성을 유지하려면 눈앞의 사건과 현상을 철저히 파고 들어야 합니다. 간단한 문제 같은 것은 거의 없습니다. 간단한 것을 당연하게 받아들이면 결국은 창조성을 잃고 맙니다. 끊임없이 파고들며 생각할 때 문제 해결의 길이 열릴 것입니다."

- 분석자는 올바른 분석과 가설 입안의 힌트를 얻기 위해 현장과 커뮤니케이션을 하고 탐색적 자료 분석으로 데이터를 다시 한 번 냉정하게 바라봐야 한다.


(단계 5) 운용을 최적화한다

실천과 검증을 반복하며 시행착오를 통해 업무의 시점에서 운용을 최적화, 고도화한다

- 운용의 최적화로 연결할 방법을 궁리하지 않으면 현장의 의식은 쉽게 바뀌지 않는다.


그러나 경험을 쌓은 지금은 근사 모델을 사용할 때 항상 미시적인 시점으로 되돌아갈 필요가 있음을 알고 있다. 공공 정책은 특히 그 개념을 고려해야 하는 영역이다. 재해처럼 우발성이 높은 사건에서 중요한 것은 발생 확률이 아니라 1회 발생했을 때의 오더 오브 매그니튜드, 즉 영향이 얼마나 크냐는 것이다.


목적이 바뀌면 수단도 바뀜을 말해주는 좋은 예이며, 데이터 분석에서 목적 설정이 얼마나 중요한지를 여기에서도 알 수 있다



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari