Part1. 공공데이터 분석의 개념
도메인에 따라 데이터 분석의 형태와 절차가 달라진다. 이번 글부터는 공공(公共) 부문, 특히 도시 문제를 중심으로 서술한다. 이번 글의 주제인 '데이터분석의 유형 ' 또한 공공 분야를 대상으로 한다.
설명적 분석 : 과거 또는 현재에 발생한 사실을 다양한 기준에 의하여 서술한다.
진단적 분석 : 데이터를 이용하여 특정 문제의 원인을 찾는다.
예측적 분석 : 미래 상황 등 미지의 사실을 예측한다.
처방적 분석 : 분석의 단계를 넘어 구체적인 행위를 한다.
아래 그림은 2014년1월부터 2018년12월까지 5년간 서울의 세대 형태 변화를 시각화한 데이터이다. 1인세대와 2인세대는 증가한 반면 3인 이상의 세대는 감소하였다는 사실을 발견할 수 있다. 가장 큰 변화는 1인세대와 4인 세대이다. 1인 세대는 3.29퍼센트포인트 증가한 반면, 4인세대는 3.12퍼센트포인트 감소하였다.
아래 그림은 2018년 12월 기준 행정동별 1인세대 분포이다. 강남구 역삼1동이 16,183세대로 가장 많으며 그 다음이 관악구 청룡동과 신림동이다. 아래 그림에는 나타나지 않지만 1인세대 비율이 가장 낮은 곳은 강남구 대치1동이다.
아래 그림은 새벽에 택시잡기 어려운 이유를 찾아보기 위하여 시간대별 개인택시와 법인택시의 운행 대수를 시각화한 결과이다. 참고로 서울에서 운영중인 개인택시는 약 5만여대이고 법인택시는 약 2만여대이다.
그림에서 X축은 시간대이고, Y축은 운행대수이다. 파란색 선그래프는 개인택시, 붉은색 선그래프는 법인택시 운행 대수이고 녹색 막대는 합계이다.
오전 9시부터 저녁 12시까지 서울에서 운행하는 택시는 3만대를 상회한다. 그러나 새벽 1시이후부터 2만대 이하로 감소하는 사실을 발견할 수 있다. 이 시간대의 그래프를 자세히 살펴보면, 법인택시의 운행 대수는 변동이 없으나 개인택식의 운행 대수가 급격히 감소함을 볼 수 있다. 결국 새벽시간대에 택시를 잡기 어려운 이유는 개인 택시의 운행 감소 때문이라는 사실을 발견할 수 있다.
아래의 그림은 서울시에서 운영하는 공공자전거 '따릉이'의 대여 건수를시각화한 결과이다. 파란색 선그래프는 2015년 7월부터 2018년 12월까지의 대여건수 기록이고, 회색 선그래프와 음영은 2019년 1월부터 6개월간의 예상 대여 건수와 범위이다. 분석 도구는 PowerBI이며, MA모형(지수 평활법)을 이용하여 95% 신뢰도로 예측한 결과이다.
따릉이 대여 건수 기록(파란선 선 그래프)을 살펴보면, 대여 건수에 일정한 패턴이 있음을 발견할 수 있다. 봄에 대여 건수가 증가하기 시작하여 7월경에 최대치를 기록하고 겨울이 되면 감소한다. 이러한 패턴으로부터 미래의 대여건수를 예측한 것이 위 그림에서 보여주는 시각화 결과이다.
과거의 데이터 패턴을 이용하여 미래 예측을 하는 근본적 전제는 "과거의 현상이 미래에도 재현된다"는 가정이다. 이러한 가정에 기반하여 시계열 기법과 확률 모형을 이용하여 예측적 분석이 이루어진다.
과거 데이터에서 발견된 패턴을 기반으로 확률 모형을 이용하여 불확실한 사실을 사전예 예측하는 기법을 예측적 분석이라고 한다.
처방적 분석은 예측되는 상황을 위해 무엇을 하면 좋을지 대안을 제시한다. 대안 도출과 의사 결정을 물론 일부 실행까지 진행하는 분석방법이다.