brunch

You can make anything
by writing

C.S.Lewis

by 마경근 Dec 12. 2019

데이터 분석으로 통찰을 얻는다

Part1. 공공데이터 분석의 개념

앞의 글에서 '분석'과 '데이터'를 이야기하였다. 이번 글에서는 그 둘을  합친  '데이터 분석'을 이야기 한다.

패턴을 찾고 통찰을 얻는다

데이터 분석은, 데이터를 이용하여 크 복잡한 현상에서 유의미한 패턴을 찾고 그로부터 의사결정에 필요한 통찰을 얻는 행위이다. 여기서 패턴은 경향(Trend)일 수도 있고 계절성(Seanality)일 수도 있다. 때에 따라서는 이상값(Outlier)도 주요한 관찰 대상이 된다.

데이터 분석만으로 문제를 해결하거나 새로운 서비스를 제공할 수는 없다(여기에는 무엇보다 '돈'이 필요하다). 하지만 분석 결과로 밝혀진 패턴과 그로 인한 통찰을 이용하면 합리적인 의사결정이 가능해진다. 데이터 분석의 이유이다.


확증적 분석 vs. 탐색적 분석

데이터 분석을 위한 2개의 접근 방법이 알려져 있다.

1. 확증적 데이터 분석(CDA: Confirmatory Data Analysis) - 엄격하고 체계적인 방법으로 가설 검증

가설을 설정한 후 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석기법이다. 구체적인 질문에 확실한 답을 얻을 수 있다.  추론 통계를 주로 사용하여 설문 조사, 논문에 대한 내용을 입증하는데 많이 사용한다.

예를 들어, CCTV의 범죄 예방 효과를 가설로 설정하고,  관련 데이터 수집한 후, CCTV와 범죄 발생빈도의 상관관계를 파악하여 가설을 검증하는 방식이다(아래 그림 참조)

확증적 데이터 분석 절차

2. 탐색적 데이터 분석(CDA: Confirmatory Data Analysis) - 데이터의 패턴에서 인사이트 발견

데이터 시각화 기법을 통해 데이터의 특징과 구조로부터 통찰을 얻는 귀납적 분석기법이다. 선입견 없이 유연하게 데이터를 탐색하고 기술 통계 기법을 주로 사용하며 비교적 최근에 많이 사용하는 분석 방법이다. 

예를 들어, 지역별/시기별 배달음식 주문 데이터를 시각화하고 탐색하여 향후 매출이 높을 것으로 예측되는 장소와 시기에 창업하는 것이다(아래 그림 참조)

탐색적 데이터 분석 절차

아래의 그림은 탐색적 데이터 분석의 사례이다. SKT 빅데이터 허브(www.bigdatahub.co.kr) 에서 2017년 배달업종별 이용 통화량을 다운로드하여 시각화하였다. 몇가지 인사이트를 찾을 수 있다.

① 1년중 배달음식 주문이 적은 시기는 설날과 추석이다.

② 1년중 배달음식 주문이 가장 많은 시기는 12월24일이다.

③ 점심에는 중국음식을 많이 주문하고 저녁에는 치킨을 많이 주문한다.

④ 강서구 주민들이 배달음식을 가장 많이 주문한다(주민등록 인구가 가장 많은 곳은 송파구이다.)

탐색적 데이터 분석 사례 - 2017년 배달업종별 주문 건수 시각화

'확증적 데이터 분석'과 '탐색적 데이터 분석'은 상호 장단점이 극명하게 갈린다.  따라서 특정 기법을 고집하기 보다는 분석 목적에 따라 양쪽의 장점을 취하는 것이 바람직하다. 

공공데이터를 분석하는 필자의 경험상, 확증적 기법의 '가설 설정 및 검증'과 탐색적 기법의 '데이터 시각화'를 차용하는 것이 유효하였다.  다음에 연재하게 될 '데이터 분석 절차'에서 자세히 다루도록 하겠다.


현상의 뒷면에 있는 실체를 찾아라

웹툰 '가우스전자'에서 소개하는 오독(誤讀)은 데이터 분석에서 발생하기 쉬운 '잘못된 해석'을 의미한다. 왜곡(歪曲)은 고의에 의하여 저질러지지만 오독은 분석가의 인지능력, 확증편향, 데이터 한계에 의하여 발생한다. 실수에 의한 오독은 무능력이지만, 고의적인 오독은 범죄이다.

가우스 전자 시즌3 441화, 오독
웹툰에서 소개하는 사례는 신동 출신의 수학자로 유명한 위스콘신 주립대 수학과 교수 조던 엘렌버그의 How Not to Be Wrong: The Power of Mathematical Thinking (2015년) 에서 소개된 내용이다.


현상은 발견하기 쉽지만, 현상의 이면에 있는 실체를 밝혀내려면 치열한 고민이 필요하다. 

통찰(洞察, insight)의 사전적 의미는 '예리한 관찰력으로 사물을 꿰뚫어 보는 것'이다.

현상의 뒷면에 있는 실체
① 추론통계(Inferential statistics) : 수집한 데이터를 이용하여 추론 예측하는 통계 기법으로, ‘신뢰구간 추정‘, ‘유의성 검정' 기법 등을 이용
②기술통계(Descriptive statistics) : 수집한 데이터를 요약 묘사 설명하는 통계기법으로,  데이터의 '대표값’, ‘분포’ 등을 이용
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari