상관계수와 결정계수
상관계수 ρ가 무엇인지 알아봅시다.
5명의 아이들로 구성된 산골학교의 신장과 체중 자료입니다.
표준화. 표준화. 표준화
키. 몸무게. 키. 몸무게. 키*몸무게
철수. 100. 50. 0. 0. 0
영희. 90. 45. -1.41 -0.71 1
순이. 105. 60. +0.71 +1.41 1
갑돌. 110. 55. +1.41 +0.71 1
기영. 95. 40. -0.71 -1.41 1
평균. 100. 50. 평균: 0.8
분산. 50. 50. -> 상관계수 ρ
표준편차 7.07 7.07
위에서 '표준화 키' = (키-평균)/표준편차 입니다. 똑같이 '표준화 몸무게' = (몸무게-평균)/표준편차 입니다. 그리고 '표준화 키'와 '표준화 몸무게'를 서로 곱한 게 '표준화 키•표준화 몸무게'이며 이 '표준화 키•표준화 몸무게' 수치들의 평균이 바로 상관계수가 됩니다.
즉 정규분포를 표준정규분포로 만들 때처럼 두 분포를 Z 화 하여 1:1 로 곱한 후 평균을 구한 것입니다. 분포를 Z 화 하면 그 분포는 확률밀도함수로 전체 적분이 1 이 되므로 서로 대응하여 그 곱셈한 평균의 분포 또한 그 절대값은 절대로 1 보다 클 수 없게 됩니다.
-------------------------------------
그러면 공분산과는 어떤 관계가 되는지 살펴봅시다.
편차 편차. 편차
키. 몸무게. 키. 몸무게. 키*몸무게
철수. 100. 50. 0 0. 0
영희. 90. 45. -10 -5 50
순이. 105. 60. +5 +10 50
갑돌. 110. 55. +10 +5 50
기영. 95. 40. -5 -10 50
평균. 100. 50. 평균: 40
분산. 50. 50. -> 공분산 COV
표준편차 7.07 7.07
'표준편차 키•표준편차 몸무게' = 7.07•7.07 = 50
상관계수 ρ = COV(X,Y)/ σ(X)•σ(Y)
= 40/50 = 0.8
위에서 계산된 각 편차의 곱인 '편차 키•편차 몸무게'의 평균이 바로 공분산입니다.
이 공분산을 '표준편차 키•표준편차 몸무게'로 나누면 바로 상관계수가 됩니다. 개별 곱셈값에다가 미리 나누어 평균을 구해도 되고, 지금처럼 나중에 평균에다가 나누어줘도 됩니다. 엎어치나, 메~치나 그게 그거입니다.
-----------------------------------
분산이란 한 변수의 편차제곱의 평균이고, 공분산이란 두 변수의 편차를 서로 대응하여 곱한 것의 평균입니다.
표준편차란 분산의 제곱근으로 단위를 원 자료의 단위와 맞추는 것이고, 상관계수란 공분산을 각 변수의 표준편차의 곱으로 나누어 표준정규분포 만들 때처럼 표준화 한 것입니다.
------------------------------------
여기서 공분산이나 표준편차를 계산하면서 평균을 할 때 n 으로 나눈 이유는 모집단이기 때문입니다. 만약 표본으로 모집단을 추정할 때는 자유도(n-1)로 나누어 줍니다.
상관계수 참 쉽지요?
------------------------------------
그런데 만약 위 자료에서 몸무게를 독립변수라고 하고 키를 종속변수라고 가정하면 회귀분석의 회귀식도 만들 수 있습니다.
회귀식 모형은
Y = α + β•X
β = Σ (X의 편차)•(Y의 편차) / Σ (X의 편차)^2
α = (Y의 평균) - β•(X의 평균)
각 변수에 계산된 숫자를 대입하면
β = 200 / 250 = 0.8
α = 100 - 0.8•50 = 60
그러면 회귀식은 다음과 같은 형태가 됩니다.
키(Y) = 60 + 0.8•몸무게(X)
회귀분석 참 쉽지요?
----------------------------------
그리고 참고로 여기서 결정계수 R^2는 얼마일까요?
계산을 해보아야 하겠지만 교과서에는 결정계수는 상관계수의 제곱이라고 하니 0.8^2 = 0.64 가 아닐까 합니다. 한번 계산해 볼까요?
실측 예측 평균 (실-μ)^2 (실-예)^2 (예-μ)^2
철수. 100. 100 100 0. 0. 0
영희. 90. 96 100 100 36. 16
순이. 105 108. 100 25. 9. 64
갑돌. 110. 104 100 100 36. 16
기영. 95. 92 100 25 9. 64
합계. 250 = 90 + 160
R^2 = SSR / SST = 160/250 = 0.64
신기하게도 결정계수는 상관계수와 제곱과 제곱근의 관계입니다.