Part2. 공공데이터 시각화 및 탐색
기술 통계(Descriptive Statistics)는 데이터 분석을 위한 통계 기법으로, 기술통계의 핵심은 데이터의 대푯값과 분포의 파악이다. 데이터 시각화와 탐색의 이론적 배경을 위하여 기술 통계 기법을 살펴본다.
데이터의 대푯값(representative value)은 중심경향(central tendency) 값으로도 불린다. 이하 내용은 Head First Statistics 일부를 참조하였다.
1.1 평균값(mean)
평균값은 직관적으로 이해하기 쉬우며 많이 사용하는 대푯값이다. 모든 값을 더한 후 전체의 수로 나누면 된다.
요가 교실 수강생들의 나이가 다음과 같다고 가정하자.
19, 20, 20, 20, 21
요가교실 평균 나이는 20세가 된다. 전체적인 값의 대푯값으로 손색이 없다.
(19+20+20+20+21)÷5 = (100÷5) = 20
만약, 수강생들의 나이가 다음과 같다면 어떻게 될까?
19, 19, 19, 20, 20, 20, 20, 20, 20, 21, 21, 21, 145, 147
이 경우 평균 나이는 38세가 된다. 하지만 여기서 대부분의 나이는 20세 정도로 38세는 아무도 없다. 여기서 평균값인 38세를 대푯값으로 보기 어렵다(이는 145, 147과 같은 극단적으로 큰값 때문에 발생하였다)
(19+19+19+20+20+20+20+20+20+21+21+21+145+147)÷14 = (532 ÷14) = 38
평균값은 극단적인 값에 의하여 왜곡되기 쉽다. 이를 평균의 함정이라고 부른다.
1.2 중앙값(median)
중앙값은 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다.
아래에서 중앙값은 7번째에 있는 20세가 된다.
19, 19, 20, 20, 20, 20, 20, 20, 21, 21, 21, 145, 147
위의 값도 평균의 함정에 빠질 수 있는 극단적인 값이 포함되어 있지만, 중앙값을 이용함으로써, 대푯값으로 사용하여도 문제가 없다.
중앙값을 구하는 단계는 다음과 같다.
1. 작은 수에서 큰 수 순으로 나열한다.
2. 홀 수개의 수가 있으면 중앙값은 한가운데 있는 수이다. n개의 수가 있다면 중앙값의 위치는 (n+1) / 2가 된다.
3. 짝 수개의 수가 있으면 가운데에 있는 두 수를 더한 다음에 2로 나눈다. 가운데 위치는 (n+1) / 2 계산하면 찾을 수 있다.
1.3 최빈값(mode)
수영 교실 수강생들의 나이가 아래와 같다고 가정해보자
1, 2, 2, 2, 2, 3, 3, 3, 31, 32, 32, 33, 33, 33, 33
평균값은 (1+ 2+ 2+ 2+ 2+ 3+ 3+ 3+ 31+ 32+ 32+ 33+ 33+ 33+ 33) ÷15 = (245÷15) = 16.33세
중앙값은 (15+1) ÷ 2 = 8번째 값 = 3세
주어진 값은 2세 전후와 32세 전후로 분포되어 있으며, 평균값과 중앙값 모두 대푯값으로 판단하기 어렵다.
이 경우 최빈값이 대푯값으로 적절하다. 최빈값은 주어진 값들 중에서 가장 자주 나타나는 값을 의미한다.
위의 값에서 가장 자주 나타나는 값은 2와 33이다. 이 경우 최빈값은 2개이기 때문에 이봉(bimodal) 분포라고 부른다.
아래 영상은 평균의 함정과 함께 중앙값과 최빈값을 설명한다.
아래 그림에서 Team1과 Team2는 분명히 다른 값을 갖고 있지만 평균값과 중위값, 최빈값은 동일하게 나타난다. 위에서 설명한 대푯값만으로는 데이터를 제대로 설명할 수 없는 한계가 있다.
이미지 출처 : cousera.org
2.1 범위(range)
범위는 임의의 값을 가지는 데이터 집합에서 최댓값과 최솟값의 차이이다. Team1과 Team2의 대푯값은 동일하였지만, 범위는 각각 8.5와 27.7이 된다
2.2 표준 편차(standard deviation)
편차는 관측값과 (전체의) 평균값과의 차이이다. 즉 관측값이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값이다. 예를 들어 어떤 학생의 수학점수가 75점인데 반 평균 점수가 80점이라면 편차는 -5이며 그 학생의 점수는 반 평균에서 -5만큼 떨어져 있다는 의미이다.
표준편차는 편차들을 대표하는 한개의 값으로, 관측값의 분포를 설명하는 대푯값으로 이해하는게 좋다. 표준편차가 작다면 관측값들이 평균에 가깝다는 의미이며, 표준편차가 크다면 평균과 멀리 떨어졌다는 의미이다.
아래의 표에서 5명 학생의 수학점수 분산과 표준편차 계산방법을 가상으로 계산하였다. 5명 학생의 점수는 75점부터 86점까지 다양하지만 점수의 대푯값(평균)은 80점이 된다.
여기서 각 점수와의 편차를 구하고 중간과정을 거친 후 표준편차를 구하면 3.6321이 된다. 즉, 각 학생들의 점수는 80점에서 평균적으로 3.3631만큼 떨어져 있다는 생각할 수 있게 된다.
여기서 분산은 표준편차를 계산하기 위한 중간과정 정도로 이해하는 것이 편하다.
2.3 정규분포( normal distribution)
이미지 출처 : 예제와 함께 하는 쉬운 통계
아래는 30대 한국 남성의 키 분포를 시각화한 그림으로, X축은 키의 범위이고 Y축은 그 범위에 속한 사람의 수를 나타낸다.
여기서 관측값들은 평균 173.3을 기준으로 좌우 대칭이면서 양 극단으로 갈수록 급격하게 작아지는데, 이런 형태의 데이터 분포를 정규분포라고 한다.
2.4 왜도(skewness)와 첨도(kurtosis)
왜도는 데이터 분포의 대칭 정도를 나타내며, 첨도는 데이터의 이상치(outliers) 존재 여부를 나타낸다.
데이터 중에는 정규분포와 같은 대칭된 분포를 갖지 않은 경우가 많다. 아래의 그림은 관측값이 왼쪽이나 오른쪽으로 치우친 경우이다. 이렇게 관측값이 치우친 정도를 왜도라고 한다.
음왜도(negative skew)는 최빈값(mode) 왼쪽의 영역이 더 크고 평균값(mean)이 중앙값(median)보다 작다. 양왜도(positive skew)는 그 반대이다. 정규분포는 평균값과 중압값, 최빈값이 동일하며 왜도는 0이다.
첨도는 정규분포와 비교하여 관측값 분포 뾰족한 정도를 나타내는 척도이다. 아래 그림 왼쪽처럼 정규분포를 따르는 분포는 첨도값이 0이며, 가운데 처럼 중간이 뾰족하다면 0보다 큰 값을, 오른쪽 처럼 중간이 평평하다면 0보다 작은 값을 갖는다.
2.5 4분위수(quartile)
이미지 출처 : Study/확률과 통계
사분위수는 관측값을 오름차순으로 정렬한 후 4개의 동일한 부분으로 나눈 값이다. 사분위수를 이용하면 관측값의 중심 위치와 분포를 쉽고 빠르게 파악할 수 있다.
아래 그림과 같이 9개의 관측값의 경우, 우선 오름차순 정렬을 하고 다음의 방법으로 값을 구한다.
2사분위수(중앙값) : 전체 관측값의 중앙에 있는 값 → 15
1사분위수 : 2사분위수(중앙값)를 기준으로 왼쪽 값들의 중앙에 있는 값 → 12
3사분위수 : 2사분위수(중앙값)를 기준으로 오른쪽 값들의 중앙에 있는 값 → 22
4분위수 범위(IQR, Inter Quartile Range) : 3사분위수 - 1사분위수 → 10
3.1 히스토그램(histogram)
히스토그램은 연속형 변수의 전반적인 분포 형태를 한눈에 파악할 수 있도록 도와준다. 히스토그램을 이용하면 관측값의 정규 분포 여부를 알 수 있고 이상값 존재 여부도 파악할 수 있다.
히스토그램은 변수의 구간별 빈도 수를 시각화한 결과로, X(가로)축은 구간이고 Y(세로)축은 각 구간별 빈도 수이다.
남학생 55명의 키를 기록한 아래 데이터를 이용하여 히스토그램을 그려 본다.
구간을 5개로 하여 구간 경계값을 정하고 구간별 데이터 개수(도수)를 기록한다.
도수분포표를 이용하여 히스토그램을 작성한다. x축(가로축)에는 구간을, y축(세로축)에는 각 구간별 빈도수를 그린다.
3.2 박스 플롯(box plot)
박스 플롯은 관측값의 대략적 분포와 개별적 이상치를 파악할 수 있는 시각화 차트로, 5개의 값(최소값, 1사분위수, 2사분위수, 3사분위수, 최대값)을 기본으로 작성한다. ⇒ 앞에서 설명한 4분위수를 기반으로 한다.
박스 플롯은 히스토그램과 달리 한 공간에서 여러개의 관측값 그룹을 시각화 할 수 있다.
앞에서 설명한 4분위수의 관측값에 1과 58을 추가한 후 박스 플롯을 그려본다.
관측값 : 1, 6, 10, 12, 12, 15, 21, 22, 33, 37, 56
2사분위수(중앙값) : 전체 관측값의 중앙에 있는 값 → 15
1사분위수 : 2사분위수(중앙값)를 기준으로 왼쪽 값들의 중앙에 있는 값 → (10+12) / 2 = 11
3사분위수 : 2사분위수(중앙값)를 기준으로 오른쪽 값들의 중앙에 있는 값 → (22+33) / 2 = 27.5
4분위수 범위(IQR, Inter Quartile Range) : 3사분위수 - 1사분위수 → 27.5 - 11 = 16.5
최소값 : 1사분위수 - (1.5 × 4분위수 범위) → 11- (1.5 × 16.5) = -13.75
최대값 : 3사분위수 + (1.5 × 4분위수 범위) → 27.5 + (1.5 × 16.5) = 52.25
이상값 : 최소값보다 작거나 최대값보다 큰 값 → 56
확률 분포와 비교하여 박스 플롯의 각 값은 다음의 의미를 갖는다.
4분위수 범위(IQR)는 전체 관측값의 50%에 포함된다.
최소값과 최대값 사이에 전체 관측값의 99.3%가 포함된다.
이상값은 전체 관측값의 0.7에 해당한다.