통계학 공부(2)

자료 분류

by 김학준

변수(variable)

일변량 자료(univariate data):하나의 변수만 있는 자료

다변량 자료(multivariate data): 여러 개의 변수로 이루어진 자료

변수들 간 관련성 유무


관측개체(observation, 관측값(치))

관측개체들 간 관련성 유무


1. 범주형 자료(categorial data)

명목(형) 자료(nominal data)

- 숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시

- 예] 혈액형, 성별(주민번호:1998/04/02)

순서 자료(ordinal data)

- 범주의 순서가 상대 비교 가능

- 예] 비만도(저체중, 정상, 과체중, 비만, 고도비만) 선호도(매우 나쁨, 나쁨, 보통, 좋음, 매우 좋음) 학점 (A, B, C, D, F)

- 범주화를 톻해 수치자료를 순서자료로 바꿈

도수분포표(frequency table)

- 각 범주에 몇 개의 관측개체가 있는지를 정리한 표

도수(frequency): 범주에 속한 관측개체의 수(=빈도)

상대도수(realtive frequency): 전체 자료 중 해당 범주에 속한 자료의 비율

상대도수 = 전체 관측개체의 수/해당 범주 관측개체의 수


그래프를 이용한 자료정리

대부분 사람들은 숫자나 수식으로 설명할 때보다 그림과 같은 시각적 방법을 이용하면 이해를 잘하는 경향이 있음

나폴레옹이 러시아원정(1812/6~1813/1)

톨스토이 “전쟁과 평화”

1865~1867년 The Russian Messenger에 연재

1869년 책으로 출간(1225쪽)

통계학 1.png

사람들을 설득할 땐 그림이 상당히 유용한 도구가 될 수 있다.


프레이페어

1786: 막대그래프

1801년: 원도표


원도표(Pie chart)

원에 각 범주에 해당하는 비율만큼 각도를 분할하여 표시

- 해당 범주의 각도 = 비율 x 360°

원을 사용하는 이유는 각 범주의 각도와 면적의 비가 항상 동일하기 때문


나이팅게일 로즈 다이어그램(Nightingale rose diagram)

나이팅게일(1820~1910)

1854년 4월~1856년 3월까지 크림전쟁 이스트지역엥서 사망한 사병들의 사인(부상, 질병, 기타 원인)을 분류하여 정리

- 각 원인별 사망자 수를 면적으로 표시


통계학 2.png


대다수의 사망원인은 전염설 질병

병원환경개선 필요성의 근거자료로 활용

통계학적 공로를 인정받아 1859년 여성최초로 영국왕립통계학회 회원과 이후 미국통계학회 명예회원으로 선출

막대그래프(Bar chart)

Cleveland(1985)

- 차이에 대한 인지 순서: 동일한 척도에서의 위치, 길이, 각도와 기울기, 면적, 부피, 색상과 밀도 순

각 범주의 도수나 상대도수를 막대의 길이로 표시한 그림

- 동일한 척도에서의 길이 → 비교 용이


1. 수치 자료(numerical data)

이산 자료(discrete data)

- 셀 수 있는 형태의 자료(countable data)

- 예] 충치 수, 교통사고 건 수

- 범주형 자료의 발생빈도

연속 자료(continuous data)

- 연속적인 속성을 가지는 자료

- 예] 신장, 체중 시간

- 연속자료는 대부분 이산화를 통해 절사 된 형태로 표시

척도에 따라 명목, 순서, 구간, 비율척도로도 나눔 두 자료들은 상황에 따라 오버랩돼서 사용됨


도수분포표(Frequency table)

수치자료에 대한 도수분포표

- 자료의 값이 몇 개로 한정된 경우에는 값을 범주로 처리

- 자료를 범주화하고 도수분포표를 작성

(1) 순서자료 형태로 변환

- 도수, 상대도수 + (누적도수 또는 누적상대도수) 표시


범주화

계급(class)의 수와 경곗값(크기) 결정

계급의 수 결정

- 제곱근 방법, Sturges 공식, Rice 공식 등

- 자료의 특성을 고려해 분석자가 결정(중요)

계급경계 : 간격(크기)과 시작점과 끝점 지정

- 기본적으로 동일간격

- 자료의 구조와 설명을 고려해 선택

예] 최솟값이 7이고 최댓값이 34이고 3개의 계급

1. [7, 16] [16, 25] , [25,34]

2. [5, 15], [15, 25], [25, 35]

예] 연간 소득에 대한 분석

1. 동일한 간격

2. 1.5천만 미만, [1.5천만, 3천만], [3천만, 5천만], [5천만, 7.5천만], [7.5천만, 1억], 1억 이상


점도표(dot plot)

각 관측값의 위치에 점을 표시하고 같은 관측값이 있는 경우 위로 누적


히스토그램(Histogram)

히스토그램은 수치자료 특히 연속자료의 분포형태를 표시

히스토그램 vs 막대그래프

계급의 상대도수를 사각형의 면적으로 표시

전체 면적 = 1

높이 = 상대도수/계급구간길이 = 밀도(density)

밀도추정(density setimation)

(1) 데이터의 분포가 어떤 형태를 가지는지 알 수 있음(너무나 중요)


줄기 - 잎 그림(stem - and - leaf plot)

관측값의 정보를 그대로 간직하면서 자료의 분포를 알려는 그림

줄기 - 잎 그림 그리기

- 자료를 순서대로 정렬

- 줄기에는 기본단위의 10배의 값을 표시

- 잎에는 관측값의 기본단위에 해당되는 값을 표시

- 자료가 많은 경우 줄기를 5 단위(0~4, 5~9)


상자그림(Box plot) → 수치자료 분포의 산포


평균

n개의 수치자료 : x1, x2, … xn

- x1 : i번째 표본의 값(관측값)

- n : 표본크기(samle size)

가장 많이 사용되는 중심위치 통계값은 평균

- 표본평균(sample mean)

- 표본평균은 표본의 합을 표본크기로 나눈 값

무게중심 = 평균

- n 개의 자료 중 x1, … xm가 a보다 작다고 가정

- 편차의 합 = 0


표본비율(sample proportion)

i번째 관측 값이 관심 범주에 속하면 xi의 값을 1, 속하지 않으면 0으로 표시

y = x1 + … + xn : 해당 범주에 포함된 표본의 수

표본비율 = 표본평균

이상점(outlier)

앞의 예제 결과는 자료 중 400만 원이라는 값이 다른 자료와 많이 떨어져 있어 평균의 값이 커짐

대부분의 관측값으로부터 멀리 떨어져 있는 일부 관측값

이상점의 포함 여부에 따라 표본평균의 값에 차이가 크게 나는 경향이 있음

→ 이상점에 로버스트(robust) 하지 않음

대체 통계값 : 중앙값, 절사평균, 최빈값 …


표본중앙값(sample median, 표본중위수)

자료를 크기순서대로 나열했을 때 중간에 있는 값

순서통계량(order statistics): 표본을 오름차순으로 정렬한 것

표본중앙값은 극단적인 값에 영향을 받지 않음

예] 초임월급 자료에서 400이 4000으로 가도 표본중앙값의 변화는 없는 이상점의 유무에 관계없이 안정적은 중심위치를 제공

→ 이상점에 로버스트

자료의 값들은 순서통계량을 구하는데 이용

→ 자료의 정보를 다 활용하지 못함

어떤 값을 중심위치로 사용해야 하는가?

예] 2016년 1/4분기 우리나라 가계동향

2인 이상 가구 대상


기준 월소득 월지출

평균 455.5만 원 352.0만 원

중앙값 403.7만 원 258.5만 원


표본절사평균(sample tirmmed mean)

표본평균은 모든 자료의 정보를 사용하지만 로버스트 하지 않음

표본중앙값은 로버스트 하지만 자료의 정보를 다 활용하지 못함

a% 표본절사평균 : 순서통계량에서 하위 a%부터 상위 a%까지의 자료를 이용하여 표본평균을 계산

a백분위수(percentile) : 하위 a%에 해당하는 값

p = a/100이면 p분위수(quantile)

a를 적절히 정하면 이상점을 제외시키면서 많은 표본정보 이용

a = 0 → 표본평균

a = 50 → 표본중앙값

실제 사용 : n개의 중 작은 것과 큰 것 k 개씩을 제외한 나머지 n-2k 개의 표본평균

- 예] 체조, 피겨스케이팅 등의 채점

(1) 최고 점수 최저 점수 제외 평균 구함 (왜?)


표본최빈값(sample mode)

자료 중 빈도가 가장 많은 값

- 예] 취업률 : 55.6 (3개), 초임임금 : 265 (2개)

- 최빈값은 여러 개가 나올 수 있음

- 연속자료의 경우 없을 수도 있음

8명의 졸업생의 초임월급 실수령액(단위 만원) 자료

235, 250, 260, 265, 270, 400

최대, 최소를 절사 한 평균(14.3% 절사평균)

(250+ … + 275)/6 = 1585/6 = 264.2

표본평균 : 277.5, 표본중앙값 : 265



저번에 가중평균에 대했던 것 같은데 절사평균이라는 개념도 있었다. 왜? 쓰는지는 알려주지 않았지만 개념을 알고 있으면 언젠간 써먹을지도 모르겠다.


아주 간단하지만 생각보다 많은 사람들이 모르는 평균의 함정을 오늘 다시금 되새겼다.

평균은 데이터의 중심점을 이야기하는 것이 아니다. 예를 들어 서울시 집값이 평균이 10억이라 할 때 10억을 들고 있으면 내가 중간쯤 되는 아파트를 샀구나라고 생각할 수 있지만 실제론 10억이 있어도 중간쯤 되는 아파트를 살 수 없을 수도 있고 10억이 없어도 될 수도 있다. 그 데이터의 분포가 어디로 있는가를 알면 된다. 중윗값을 함께 보면 분포가 예측이 가능하다.!


통계를 공부하다 보니 액셀이 얼마나 대단한 프로그램인지 느껴진다.. 정말 쉽게 표현한 거였구나 진짜 세상엔 천재들이 많다. 그리고 액셀를 그렇게 많이 쓰는 만큼 통계가 중요하다는 것.. 근데 사회에서 사람들 만나다 보면 생각보다 기초조차도 관심 없는 사람들이 많다.


아 그리고 위에서 이상점에 대해서 짧게 나왔는데 실제로 비즈니스에선 이상치를 제거하고 볼건지 제거하지 않을 건지도 중요하다. 왜냐면 매출의 이상점이 찍히는 구간에 무슨 일이 있었는지도 분석해 볼 만한 자료이기 때문! 그날의 일어났던 모든 사건들을 파헤쳐보면 사람들의 심리의 흐름이 보인다. 어쨌든 난 그래서 이상치도 중요하다고 생각한다.


암튼 평균과 중앙값의 차이를 모르는 사람이 있었다면 이것만은 꼭 기억해 두자!


자료출처 : https://lms.kmooc.kr/

https://www.youtube.com/watch?v=mo9wfhY35I4

keyword
이전 01화통계학 공부 시작