통계학 공부(3)

자료분류 이어서

by 김학준

산포(dispersion, 퍼짐)

자료들이 얼마나 퍼져 있는지를 나타내는 측도

중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공

- 자료가 조밀하게 모임 → 중심위치의 변동성이 작아짐

- 자료가 넓게 퍼짐 → 중심위치의 변도성이 커짐

1. 범위(Range)

자료 중 가장 큰 값과 작은 값의 차이

- 범위 = x(n) - x(1)

예] 취업률 자료에서 최고 취업률은 91.3%이고 최저 취업률은 19.6%

→ 범위:91.3% - 19.6% = 71.7%


2. 사분위(간) 범위(Interquartile - Range)

사분위수(quartile): 자료를 동일한 비율로 4등분 할 때의 세 위치

- 자료를 오름차순으로 정렬했을 때

∎ 25% 지점: 제1사분위수(Q1)

∎ 50% 지점: 제2사분위수(Q2) = 표본중앙값

∎ 75% 지점: 제3사분위수(Q3)

사분위(간) 범위는 제3사분위수와 제1사분위수의 차이 IQR=Q3-Q1

사분위수 계산 방법

- k=(n-1) p+1, p=0.25,0.5,0.75 계산

- k가 정수이면 x(k)가 해당 사분위수, 아니면 비례에 의한 내삽법을 적용

- 예] n=41

k=40x0.25+1=11→Q1=x(11)

k=40x0.5+1=21→Q2=x(21)

k=40x0.75+1=31→Q1=x(31)

취업률 자료: n = 42

- Q1의 위치: 41x-. 25+1=11.25번째(근데 정수가 아님)

- Q1 = 0.75Xx(11)+0.25Xx(12)

= 0.75X52.4+0.25X52.8=52.5

- Q3 → 31.75번째 위치:

Q3 = 0.25X66.7+0.75X67.9=67.6

- IQR = 67.6-52.5=15.1


상자그림(box plot)

통계학자 Tukey에 의해 제안된 그림

자료의 주요 위치 파악과 이상점 검출 등에 사용되는 그림

L=Q1-1.5 IQR, U=Q3+1.5 IQR 계산

- L=Q1-1.5 IQR, U=Q3+1.5 IQR 계산

- U=67.6+1.5X15.1+90.25

L보다 작거나 U보다 큰 값은 이상점으로 O로 표시:19.6, 22.7, 91.3

L보다 큰 관측값 중 가장 작은 값(31.6)

U보다 작은 관측값 중에 가장 큰 값(83.3)에 직선에 직선을 표시하고 상자와 연결


3. 표본분산과 표본표준편차

모든 자료들 간의 거리의 합을 이용하는 방법은?

거리(distance) : 임의의 a, b, c 점에 대해,

- a = b이면 D(a, b) = 0이고 그 역도 성립

- D(a, b) = D(b, a)

- D(a, b) ≤ D(a, c) + D(c, b)

예] D(a, b) = |a-b|, D(a, b) = (a-b) ²

모든 관측값들 간 거리의 합

모든 관측값들 간 거리의 합.png


자료들이 넓게 퍼져 있으면 이 합들은 커질 것이고 모여 있으면 작아짐

중심위치 a와 모든 관측값들 간 거리의 합

중심위치 a와 모든 관측값들 간 거리의 합.png

a가 좋은 중심위치가 되려면 자료들 간 거리가 가능한 짧아야 함

→ 거리의 합을 최소로 만드는 값

L2(a)를 a에 대해 미분한 식이 0이 되는 값

a에 대해 미분한 식이 0이 되는 값.png

편차의 합 = 0 *

L1(a)의 경우 a로 미분불가능 a = 중앙값

→ 살짝 머리 아프다

퍼져있는 정도를 나타내는 통계값

절대값을 사용한다면 중앙값.png

절댓값을 사용한다면 = 중앙값

제곱을 사용한다면 표본 평균을 기준으로 사용 하는 것이 좋다..png

제곱을 사용한다면 표본 평균을 기준으로 사용하는 것이 좋다.

계속 개수가 많아지면 많아질수록 계속 양수 값이 더해지니까 커질 수밖에 없다.

그래서 데이터가 많다고 많이 퍼져 있다는 말을 못 하게 표본의 크기로 보정을 해줘야 한다.


표본분산(sample variance)

표본분산은 n-1로 나눈다..png

표본분산은 n개의 편차를 사용하는 것 같지만

편차의 합 = 0이라는 제약조건 때문에 n-1개의 편차 정보를 사용

예] 편차가 -3, -1, 2, (?)이라고 할 때 편차의 합=0이라는 조건 때문에 ‘2’라는 수가 들어가야 하는데 이건 다른 값들에 의해서 결정되는 값이 아니고 이것 자체로는 정보가 아니고 다른 걸 다 더했을 때 0이 되게 만드는 역할을 함 그래서 실제로 사용할 수 있는 편차는 3개이다 해서 이것을 나누어 줄 때 n을 나누어 주는 것이 아니라 n-1을 이렇게 나누어 준다.


→ n-1 : 자유도(degree of freedom) *중요

통계적 추론: 비편향추정량이 됨.

비편향 추정량 : 기댓값이 모수와 일치하는 통계량


표본표준편차(sample stadard deviation)

표본분산은 편차의 제곱합을 이용하기 때문에 분산의 단위는 관측값 단위의 제곱

눈으로 이해하는 산포와 일치하기 위해서는 자료를 측정할 때의 단위로 표시

표본표준편차는 분산의 루트를 씌운 값이다..png

표본표준편차는 분산의 루트를 씌운 값이다.

취업률 자료

- 표본의 합과 제곱합

표본의 합과 제곱합.png

- 표본의 합과 제곱합

표본의 합과 제곱합 2.png

- 표본분산과 표본표준편차

표본분산과 표본표준편차.png

표준화(standardization)

수능시험은 과목별로 난이도가 다를 수 있기 때문에 원점수로 과목 간 성적을 비교 X → 표준화점수

- 평균을 빼고 표준편차로 나눈 값 =표준화

표준화된 자료의 평균과 분산

표준화된 자료의 평균과 분산.png

평균 0, 표준편차 1 ⇒ 측정 단위에 영향을 받지 않게 중심위치와 척도 조정을 통해 절대비교 가능

어떤 형태든 관계없이 모든 값에 평균을 빼주고 표준편차를 나누면 이구조가 됨.

표준화된 값은 절댓값이 돼서 절대비교가 가능해진다. → 꼭 알아둬야 할 필요가 있다!


변동계수(coefficient of variation)

표준편차가 평균에 영향을 받는 경우

예] 다이어트 목표 : 체중 100kg인 사람이 10kg(10%) 감량과 50kg인 사람이 10kg(20%) 감량 (10kg, 10kg) 감량 vs (10%, 20%) 감량

→ 평균이 큰 지역에 해당되는 사람들에 퍼져 있는 경우와, 평균이 작은 지역에 있는 사람들의 퍼져 있는 정도를, 바로 그냥 퍼져 있는 정도만 가지고 비교를 하는 것은 조금 무리가 있는 그런 데이터들이 있을 수 있다.! (10kg라는 범위는 같지만 100kg에 10kg = 10%이고 50kg 10kg = 20%이기 때문이다.)

표준편차만 이용하여 산포를 비교하는 것은 적절하지 않을 수 있어 평균으로 표준편차를 보정


한번 더 정리

편차 = (특정 숫자가) 평균에서 얼마나 떨어져 있는가

예] 시험 점수 평균 80 과학 70 수학 80 국어 90 = (70-80) -10 , (80-80) ,0 (90-80) 10

따라서 편차의 합은 0이 된다.


분산 = 집합의 숫자가 편차에서 얼마나 떨어져 있는가를 나타냄

편차들을 모두 더해서 그 평균을 구하는데, 먼저 각 편차를 제곱하여 음수가 되지 않게 한 다음 평균을 구한다.

앞에서 사용한 편차 : -10, 0, 10

각각 제곱하면 100 ,0, 100

이 제곱값들의 평균을 구하면 (100 + 0 + 100)/3= 200/3 = 66.67

따라서 분산은 66.67


표준편차

표준편차는 집단 내 숫자들이 얼마나 퍼져있는지를 원래 데이터와 동일한 단위로 보여주는 방법. 분산의 제곱근(루트)을 구한 값

분산 66.67 = 8.16


변동계수

표준편차를 평균과 비교하는 방법. 퍼짐의 정도가 평균값에 비해 얼마나 큰지를 백분율로 나타냄

표준편차를 평균으로 나눈 다음 곱하여 백분율로 나타냄

표준편차 8.16 평균 80

8.16/80=0.102 = 10.2%


갑자기 수학적 정리가 나와서 당황스러웠는데 그래도 어느 정도 이해한 것 같다.

단위 때문에 오류가 생길 수 있어 표준화된 값을 구한다는 것도 알았다.

표본분산을 구할 때 편차에서 제곱을 해주게 되는데 모분산을 구한다고 하면 모든 편차의 데이터를 알 수 있어 n으로 그냥 나누면 되지만 표본을 떼어서 분산을 구할 땐 내가 뽑은 표본이 모집단의 형태와 같지 않을 수 있다. 그래서 알 수 없는 수 예] -3,-2,-1,0,1,2, (?) <- 편차가 이렇게 있다고 할 때

편차의 합은 0이니 당연히 3이 들어가야 하는 것 같지만 그렇게 되면 의미를 갖지 않는 수가 되어 버리기에 (?)를 빼기 위해 -1을 해준다고 이해했다. 다른 유튜브 영상에서는 수학적으로 n-1이어야 모분산과 같은 값이 나와서 불편추정량(모수와 기댓값이 같음)이 된다고 이해했다.

그래서 -1에 해당하는 값은 자유도가 된다.!


지금은 일하면서 끽해야 합과 산술평균 정도를 구하고 그걸 가지고 분석을 하지만 나중엔 표준편차, 변동계수, 표준화도 추가해서 이야기하는 날이 왔으면 좋겠다.

그리고 액셀이나 구글시트 많이 사용하는 사람들은 이 정도 통계지식은 알면 좋을 것 같다.


이제 시작하는 내용 정도만 공부했는데도 벌써 어려워진다. 근데 지금 듣고 있는 강의 통계학의 이해 1,2 두

개만 이해해도 될 것 같다. 내년 여름 전에는 다 듣고 정리할 수 있겠지?


출처: https://lms.kmooc.kr/course/view.php?id=6760

keyword
이전 02화통계학 공부(2)