brunch

You can make anything
by writing

C.S.Lewis

by 마경근 Dec 20. 2019

4개의 데이터 분석 유형

Part1. 공공데이터 분석의 개념

도메인에 따라 데이터 분석의 형태와 절차가 달라진다. 이번 글부터는 공공(公共) 부문, 특히 도시 문제를 중심으로 서술한다. 이번 글의 주제인  '데이터분석의 유형 ' 또한 공공 분야를 대상으로 한다.


데이터 분석 성숙도 모델

가트너에서 발표한 분석 성숙도 모델(Analytics Ascendancy Model)을 빌려,  데이터 분석 유형을 4가지로 구분한다.

설명적 분석 : 과거 또는 현재에 발생한 사실을 다양한 기준에 의하여 서술한다.

진단적 분석 : 데이터를 이용하여 특정 문제의 원인을 찾는다.

예측적 분석 : 미래 상황 등 미지의 사실을 예측한다.

처방적 분석 : 분석의 단계를 넘어 구체적인 행위를 한다.

설명적 분석은 기본적인 데이터로 이루어지지만, 처방적 분석으로 발전하면서 최적화가 필요하다. 아울러 점증적으로 과거와 현재, 미래에 대한 통찰이 요구된다. 또한,  설명적 분석에서 처방적 분석으로 이동하면서 가치는 올라가지만 그만큼 난이도도 높아진다.  


가트너의 분석 성숙도 모델(Analytics Ascendancy Model)


설명적 분석

가장 기본이 되는 분석으로, 주어진 데이터를 요약 또는 집계하여 결과를 도출한다. 과거 또는 현재 발생한 사실 그 자체를 설명한다.

아래 그림은 2014년1월부터 2018년12월까지 5년간 서울의 세대 형태 변화를 시각화한 데이터이다. 1인세대와 2인세대는 증가한 반면 3인 이상의 세대는 감소하였다는 사실을 발견할 수 있다. 가장 큰 변화는 1인세대와 4인 세대이다. 1인 세대는 3.29퍼센트포인트 증가한 반면, 4인세대는 3.12퍼센트포인트 감소하였다.
서울시 열린데이터광장(data.seoul.go.kr)의 '서울시 세대원수별 세대수 (동별) 통계'  데이터 시각화
아래 그림은 2018년 12월 기준 행정동별 1인세대 분포이다. 강남구 역삼1동이 16,183세대로 가장 많으며 그 다음이 관악구 청룡동과 신림동이다. 아래 그림에는 나타나지 않지만 1인세대 비율이 가장 낮은 곳은 강남구 대치1동이다.
서울시 열린데이터광장(data.seoul.go.kr)의 '서울시 세대원수별 세대수 (동별) 통계'  데이터 시각화

위의 내용과 같이, 과거와 현재에 발생한 사실을 다양한 관점으로 분석하는 방법을 설명적 분석이라고 한다.


진단적 분석

진단적 분석은 데이터간의 인과(因果) 관계 또는 상관(相關) 관계를 파악하여 특정 결과가 발생한 원인을 밝히기 위하여 수행한다.

아래 그림은 새벽에 택시잡기 어려운 이유를 찾아보기 위하여 시간대별 개인택시와 법인택시의 운행 대수를 시각화한 결과이다. 참고로 서울에서 운영중인 개인택시는 약 5만여대이고 법인택시는 약 2만여대이다.
그림에서 X축은 시간대이고, Y축은 운행대수이다. 파란색 선그래프는 개인택시, 붉은색 선그래프는 법인택시 운행 대수이고 녹색 막대는 합계이다.
오전 9시부터 저녁 12시까지 서울에서 운행하는 택시는 3만대를 상회한다. 그러나 새벽 1시이후부터 2만대 이하로 감소하는 사실을 발견할 수 있다. 이 시간대의 그래프를 자세히 살펴보면, 법인택시의 운행 대수는 변동이 없으나 개인택식의 운행 대수가 급격히 감소함을 볼 수 있다. 결국 새벽시간대에 택시를 잡기 어려운 이유는 개인 택시의 운행 감소 때문이라는 사실을 발견할 수 있다.

단순한 사례이지만, 이렇듯 데이터의 상관관계 또는 인관관계를 이용하여 문제의 원인을 밝혀내는 분석의 방법을 진단적 분석이라고 한다. 


예측적 분석

예측적 분석은 미래의 불확실한 사실을 사전에 예측하거나 알려지지 않은 결과의 가능성을 파악하기 위하여 사용하는 분석 방법이다.

아래의 그림은 서울시에서 운영하는 공공자전거 '따릉이'의 대여 건수를시각화한 결과이다. 파란색 선그래프는 2015년 7월부터 2018년 12월까지의 대여건수 기록이고, 회색 선그래프와 음영은 2019년 1월부터 6개월간의 예상 대여 건수와 범위이다. 분석 도구는 PowerBI이며, MA모형(지수 평활법)을 이용하여 95% 신뢰도로 예측한 결과이다. 
따릉이 대여 건수 기록(파란선 선 그래프)을 살펴보면, 대여 건수에 일정한 패턴이 있음을 발견할 수 있다. 봄에 대여 건수가 증가하기 시작하여 7월경에 최대치를 기록하고 겨울이 되면 감소한다. 이러한 패턴으로부터 미래의 대여건수를 예측한 것이 위 그림에서 보여주는 시각화 결과이다.
과거의 데이터 패턴을 이용하여 미래 예측을 하는 근본적 전제는 "과거의 현상이 미래에도 재현된다"는 가정이다.  이러한 가정에 기반하여 시계열 기법과 확률 모형을 이용하여 예측적 분석이 이루어진다.

과거 데이터에서 발견된 패턴을 기반으로 확률 모형을 이용하여 불확실한 사실을 사전예 예측하는 기법을 예측적 분석이라고 한다.


처방적 분석

처방적 분석은 예측되는 상황을 위해 무엇을 하면 좋을지 대안을 제시한다. 대안 도출과 의사 결정을 물론 일부 실행까지 진행하는 분석방법이다.







작가의 이전글 데이터 분석으로 통찰을 얻는다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari