회사원을 위한 수학 [상관분석, 회귀분석 #2]
"자녀의 키는 부모 세대 키의 평균치로 되돌아가려는 경향이 있다"
- F. Galton, 1886, "유전적인 키의 평균치로의 퇴행"(Regression toward mediocrity in hereditary stature)
---------
'회귀' | 回歸 | Regression = '퇴행' (gress는 라틴어 어원으로 go, walk의 의미)
Regression Analysis, 즉 '회귀분석'은 '퇴행분석'이라는 뜻으로 언뜻 이해하기에는 낯선 표현입니다.
Regression Analysis 라는 용어는 프랜시스 골튼의 연구에서 처음 등장했는데, 자녀의 키와 부모의 키의 연관성을 밝힌 본인의 분석 방법을 일컫는 용어로 사용했습니다. 이후 [연속형 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 분석 방법](회귀분석)을 일컫는 용어로 굳어졌다고 합니다.
*커버사진:
https://galton.org/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf
*사족: 그렇다고 해서 회귀분석이라는 용어가 잘못 되었다는 것은 아닙니다. 데이터 값 자체가 아니라, 오차(잔차, 편차)를 기준으로 생각하면 맞는 표현입니다. 즉, 실측값과 예측값 간 오차들이 아무리 들쑥날쑥 하더라도 그 데이터 수가 많아지면 오차 값들이 평균으로 회귀한다는 점(또는 정규분포를 이룬다는 점: 독립항등분포)에서 옳은 표현일 수 있습니다.
직장인을 위한 수학 매거진입니다만,
수학적으로 알아보기 전에
언뜻 비슷해 보이는 상관분석, 회귀분석의
개념부터 간단히 비교해봅니다.
- 개념: 관계성 구하기 (X,Y 관계의 방향과 세기)
- 지표: R (피어슨 계수. 보통 소문자 r을 씀)
- 범위: -1 ≤ R ≤ +1
- 수학: 분산(을 표준화)
- 공간: X,Y 좌표점들의 산개 수준과 방향 (기울기 아님)
- 영어: Correlation Analysis
- 개념: 회귀식 구하기 (새로운 X값 넣어서 Y값 예측)
- 지표: R2 (2는 제곱 의미. R-squared) 註)
- 범위: 0 ≤ R2 ≤ +1
- 수학: 상관계수 R을 제곱한 값
- 공간: X,Y 좌표점들을 가장 가까이 지나는 추세선
- 영어: Regression Analysis
회귀분석의 지표를 R2라고 쓴 이유:
R2는 회귀분석 그 자체의 지표가 아니라
회귀분석으로 구한 회귀식의 설명력 지표.
회귀식은 통계 패키지, 심지어 엑셀로도 다 구해집니다.
직장인의 실용적 관심사는
회귀식의 설명력인 R2에 있기에
위의 내용 중 회귀분석 지표 자리에 R2를 썼으니
양해 바랍니다.
위에서 빨간색 글씨로 쓴 부분을
수학적으로 알아봅니다.
상관관계의 지표인 R이
‘분산을 표준화’ 한 결과라는 것은 어떤 뜻인지,
회귀식의 설명력인 R2는
왜 ‘R을 제곱한 값’과 같은지.
다음 글:
https://brunch.co.kr/@haey/21
이전 글: