brunch

You can make anything
by writing

C.S.Lewis

by 해이 Oct 06. 2022

R은 뭐고 R2는 뭐였더라

회사원을 위한 수학 [상관분석, 회귀분석 #2]



"자녀의 키는 부모 세대 키의 평균치로 되돌아가려는 경향이 있다"
- F. Galton, 1886, "유전적인 키의 평균치로의 퇴행"(Regression toward mediocrity in hereditary stature)

---------

'회귀' | 回歸 | Regression = '퇴행' (gress는 라틴어 어원으로 go, walk의 의미)

Regression Analysis, 즉 '회귀분석'은 '퇴행분석'이라는 뜻으로 언뜻 이해하기에는 낯선 표현입니다.
Regression Analysis 라는 용어는 프랜시스 골튼의 연구에서 처음 등장했는데, 자녀의 키와 부모의 키의 연관성을 밝힌 본인의 분석 방법을 일컫는 용어로 사용했습니다. 이후 [연속형 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 분석 방법](회귀분석)을 일컫는 용어로 굳어졌다고 합니다.

*커버사진:
https://galton.org/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf

*사족: 그렇다고 해서 회귀분석이라는 용어가 잘못 되었다는 것은 아닙니다. 데이터 값 자체가 아니라, 오차(잔차, 편차)를 기준으로 생각하면 맞는 표현입니다. 즉, 실측값과 예측값 간 오차들이 아무리 들쑥날쑥 하더라도 그 데이터 수가 많아지면 오차 값들이 평균으로 회귀한다는 점(또는 정규분포를 이룬다는 점: 독립항등분포)에서 옳은 표현일 수 있습니다.


직장인을 위한 수학 매거진입니다만,

수학적으로 알아보기 전에

언뜻 비슷해 보이는 상관분석, 회귀분석의

개념부터 간단히 비교해봅니다.



1. 상관분석

 - 개념: 관계성 구하기 (X,Y 관계의 방향과 세기)

 - 지표: R (피어슨 계수. 보통 소문자 r을 씀)

 - 범위: -1 ≤ R ≤ +1

 - 수학: 분산(을 표준화)

 - 공간: X,Y 좌표점들의 산개 수준과 방향 (기울기 아님)

 - 영어: Correlation Analysis


2. 회귀분석

 - 개념: 회귀식 구하기 (새로운 X값 넣어서 Y값 예측)

 - 지표: R2 (2는 제곱 의미. R-squared) 註)

 - 범위: 0 ≤ R2 ≤ +1

 - 수학: 상관계수 R을 제곱한 값

 - 공간: X,Y 좌표점들을 가장 가까이 지나는 추세선

 - 영어: Regression Analysis


註)

 회귀분석의 지표를 R2라고 쓴 이유:

 R2는 회귀분석 그 자체의 지표가 아니라

 회귀분석으로 구한 회귀식의 설명력 지표.

 회귀식은 통계 패키지, 심지어 엑셀로도 다 구해집니다.

 직장인의 실용적 관심사는

 회귀식의 설명력인 R2에 있기에

 위의 내용 중 회귀분석 지표 자리에 R2를 썼으니

 양해 바랍니다.



* 다음 글 (예정)

 위에서 빨간색 글씨로 쓴 부분을

 수학적으로 알아봅니다.

 상관관계의 지표인 R이

 ‘분산을 표준화’ 한 결과라는 것은 어떤 뜻인지,

 회귀식의 설명력인 R2는

 왜 ‘R을 제곱한 값’과 같은지.



다음 글:

https://brunch.co.kr/@haey/21


이전 글:

https://brunch.co.kr/@haey/18


매거진의 이전글 썸타기에 대한 수학적 고찰
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari