Part1. 공공데이터 분석의 개념
앞의 글에서 '분석'과 '데이터'를 이야기하였다. 이번 글에서는 그 둘을 합친 '데이터 분석'을 이야기 한다.
데이터 분석만으로 문제를 해결하거나 새로운 서비스를 제공할 수는 없다(여기에는 무엇보다 '돈'이 필요하다). 하지만 분석 결과로 밝혀진 패턴과 그로 인한 통찰을 이용하면 합리적인 의사결정이 가능해진다. 데이터 분석의 이유이다.
1. 확증적 데이터 분석(CDA: Confirmatory Data Analysis) - 엄격하고 체계적인 방법으로 가설 검증
가설을 설정한 후 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석기법이다. 구체적인 질문에 확실한 답을 얻을 수 있다. ①추론 통계를 주로 사용하여 설문 조사, 논문에 대한 내용을 입증하는데 많이 사용한다.
예를 들어, CCTV의 범죄 예방 효과를 가설로 설정하고, 관련 데이터 수집한 후, CCTV와 범죄 발생빈도의 상관관계를 파악하여 가설을 검증하는 방식이다(아래 그림 참조)
데이터 시각화 기법을 통해 데이터의 특징과 구조로부터 통찰을 얻는 귀납적 분석기법이다. 선입견 없이 유연하게 데이터를 탐색하고 ②기술 통계 기법을 주로 사용하며 비교적 최근에 많이 사용하는 분석 방법이다.
예를 들어, 지역별/시기별 배달음식 주문 데이터를 시각화하고 탐색하여 향후 매출이 높을 것으로 예측되는 장소와 시기에 창업하는 것이다(아래 그림 참조)
① 1년중 배달음식 주문이 적은 시기는 설날과 추석이다.
② 1년중 배달음식 주문이 가장 많은 시기는 12월24일이다.
③ 점심에는 중국음식을 많이 주문하고 저녁에는 치킨을 많이 주문한다.
④ 강서구 주민들이 배달음식을 가장 많이 주문한다(주민등록 인구가 가장 많은 곳은 송파구이다.)
'확증적 데이터 분석'과 '탐색적 데이터 분석'은 상호 장단점이 극명하게 갈린다. 따라서 특정 기법을 고집하기 보다는 분석 목적에 따라 양쪽의 장점을 취하는 것이 바람직하다.
공공데이터를 분석하는 필자의 경험상, 확증적 기법의 '가설 설정 및 검증'과 탐색적 기법의 '데이터 시각화'를 차용하는 것이 유효하였다. 다음에 연재하게 될 '데이터 분석 절차'에서 자세히 다루도록 하겠다.
웹툰 '가우스전자'에서 소개하는 오독(誤讀)은 데이터 분석에서 발생하기 쉬운 '잘못된 해석'을 의미한다. 왜곡(歪曲)은 고의에 의하여 저질러지지만 오독은 분석가의 인지능력, 확증편향, 데이터 한계에 의하여 발생한다. 실수에 의한 오독은 무능력이지만, 고의적인 오독은 범죄이다.
웹툰에서 소개하는 사례는 신동 출신의 수학자로 유명한 위스콘신 주립대 수학과 교수 조던 엘렌버그의 How Not to Be Wrong: The Power of Mathematical Thinking (2015년) 에서 소개된 내용이다.
현상은 발견하기 쉽지만, 현상의 이면에 있는 실체를 밝혀내려면 치열한 고민이 필요하다.
통찰(洞察, insight)의 사전적 의미는 '예리한 관찰력으로 사물을 꿰뚫어 보는 것'이다.
① 추론통계(Inferential statistics) : 수집한 데이터를 이용하여 추론 예측하는 통계 기법으로, ‘신뢰구간 추정‘, ‘유의성 검정' 기법 등을 이용
②기술통계(Descriptive statistics) : 수집한 데이터를 요약 묘사 설명하는 통계기법으로, 데이터의 '대표값’, ‘분포’ 등을 이용