2부. 데이터를 분석하는 습관 : 셀프서비스 데이터 분석
데이터 분석의 기반은 통계
통계학을 몰라도 데이터 분석을 할 수 있지만, 통계를 이해하면 분석 결과의 의미를 깊이 있게 파악할 수 있다. 과거에는 주로 표본을 추출하여 서베이를 했기 때문에 통계분석을 통해 구한 통계량으로 모수를 추정하여 모집단의 특성을 파악했었다. 빅 데이터 시대가 도래하면서 표본이 아닌 모집단의 데이터 수집이 가능해졌다. 추정을 할 필요가 없어지면서 일부 통계 무용론이 제기되기도 했지만, 이는 오해라고 할 수 있다. 아직 대다수의 데이터 분석은 전체가 아닌 일부의 데이터를 사용하고 있으며, 예측하거나 모델링을 하는데 통계량을 기반으로 하고 있다. 데이터 분석의 결과를 통계적으로 유의미 한지 살펴보고 해석하기 위해서는 통계의 벽을 넘어야 한다.
기초 통계와 빈도 분포
데이터 분석을 위한 기초 통계 및 기술 통계로 최소한 빈도 분포에 대해 이해하고 있어야 한다. 빈도 분포는 모든 분석에서 가장 기본적이면서도 매우 중요한 개념이다.
빈도 분포의 통계량은 위치와 변동성, 왜도와 첨도가 대표적이다. 집중하는 경향을 측정하는 위치 통계량은 평균이다. 일반적으로 평균값(mean)이라고 하면 산술평균을 말한다. 그러나 산술평균은 극단치(outlier)가 있는 경우에 변수의 특성을 왜곡할 가능성이 있다.
예를 들어, 국회의원의 평균재산이 22억 원이라고 할 때 특정의 1인이 2,311억 원의 재산을 가지고 있다면 평균의 의미가 무의미해진다. 이때 최빈값(mode)과 중앙값(median)을 함께 살펴봐야 한다. 소득분포를 볼 때 특히 평균값에 유의해야 한다.
변동성 측정 방법으로 범위, 4 분위 범위, 분산과 표준편차, 변동 계수 등이 있다. 분산은 어떤 변수의 평균을 중심으로 흩어진 정도를 나타낸다. 분산이 크다는 것은 데이터들이 많이 퍼져있다는 것을 의미한다.
형태를 측정하는 첨도는 분포의 모양이 중심점에서 뾰족한가를 나타내는 통계량이고, 왜도는 분포의 모양이 얼마나 좌우대칭인지를 나타내는 통계량이다. 이런 통계량으로 변수의 특성을 이해하게 된다.
가설검정과 검정 통계량
가설검정은 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론 방법이다. 가설을 설정하고, 유의 수준을 설정하고, 검정 통계량을 산출한 다음, 가설에 대해 기각 및 채택을 판단하게 된다.
가설은 연구자가 관심을 두고 있는 현상이나 요인에 관한 증명되지 않은 진술이나 제안으로 차이가 없거나 영향이 없다는 것을 의미하는 귀무가설과 어떤 견해나 행동에 변화를 유발할 수 있음을 의미하는 대립 가설을 설정한다.
예를 들어, ‘성별에 따라 소득 수준에 차이가 없다’라는 귀무가설을 설정하고, 유의 수준을 0.05(신뢰 수준 95%)로 설정했다면, P값이 유의 수준 값보다 작게 되면(p <0.05) 귀무가설을 기각하고 대립 가설을 채택하게 된다. 즉 유의 수준 5%(신뢰 수준 95%)에서 성별에 따른 추천 의향에 차이가 있다고 해석한다.
인과관계와 상관관계
변수와 변수 간의 관계에 대한 인과관계와 상관관계를 이해해야 한다. 인과관계(causation)는 원인과 결과의 관계로 원인이 선행되고 그에 따라 결과로 나타나는 관계다. 실험 및 시계열 데이터를 수집하여 회귀분석을 통해 파악할 수 있다. 상관관계(correlation)는 두 변수 중에서 어떤 변수가 원인이고 어떤 변수가 결과인지 알 수 없지만 두 변수 간에는 관계가 있는 것을 말한다. 설문조사나 소셜 데이터를 수집하여 상관분석으로 상관계수를 구해서 파악한다.
예를 들어, 무더위로 인해 아이스크림 판매량이 증가했다면 인과관계가 있다. 무더위로 인해 익사자 수가 증가했다면 역시 인과관계가 있다. 하지만 아이스크림 판매량과 익사자 수의 증가 간에는 인과관계를 알 수 없으며 단지 상관관계(?)가 있을 따름이다. 단, 이 상관관계는 통계적으로는 의미가 있을지언정 현실에서는 무의미한 상관이다.
어떤 변수 간에 상관관계가 강하다고 해서 그사이에 인과관계가 있다고 단정하면 오류나 왜곡이 일어날 가능성이 매우 높다는 점을 유의해야 한다. 제대로 된 데이터 분석을 하려면 조사방법론에 대한 이해와 분석적 사고가 필요하다.