Multiple Linear Regression 1
다중 선형 회귀는 결국 회귀 분석입니다.
데이터와 씨름하며 살아가는 사람들에게 숙명과도 같은 바로 그 회귀 분석을 말합니다.
물론 데이터 분석에 전혀 관심이 없는 분들이라면 ‘회귀 분석이 뭐야?’라고 반문을 하시겠죠.
그래서 다중 선형 회귀 분석을 이해하기 위해서는 ‘회귀 분석’이 무엇인지부터 이야기를 시작해야 합니다.
회귀 분석은 영국의 유전학자 프랜시스 골턴 (Francis Galton, 1822~1911)이 그의 논문에서 평균으로의 회귀regression toward mean라는 표현을 쓰면서 세상에 등장하게 됩니다.
이 연구는 아버지와 아들의 키를 조사하면서 나온 이론인데요, 통계학자나 수학자가 아닌 유전학자에게서 처음 소개되었다는 점이 독특하긴 하지만, 이런 배경 치고는 그 영향력이 상당하죠.
회귀 분석은 데이터 분석을 업으로 하는 사람들에게는 필수적으로 습득해야 할 중요한 기법이니 말이죠.
그런데 이름이 참 어렵습니다.
회귀, 한자로 回歸입니다.
돌아올 回, 돌아올 歸입니다.
돌고 돌아 원래 위치라는 의미겠죠?
다시 말하면 평균으로의 회귀는 결국 데이터 분석을 위해 관측된 값들은 평균을 중심으로 분포가 된다는 의미가 되죠.
그런데 더 희한한 건 정확히 평균을 중심으로 좌우로 대칭이 되어 분포가 된다는 점입니다.
아래 그림처럼 말이죠.
이를 유식하게 표현하면 정규분포라고도 합니다.
많이 들어 보셨죠? 정규분포.
꼭 데이터 분석이 아니더라도 세상의 모든 현상은 정규분포로 설명이 가능합니다.
그 어떠한 것도 정규분포를 띄지 않는 것은 없다고 봐야죠.
만약 어떤 현상이 정규분포를 띄지 않는다면, 즉 평균을 중심으로 좌우 대칭이 되지 않는 다면 그것은 관측되거나 조사된 데이터가 부족해서 발생한 것이라는 이야기가 됩니다.
정말이에요.
물론 서로 다른 환경이 아닌 동일한 환경이어야 한다는 전제 조건이 붙지만 말이죠.
동일한 환경? 그건 차차 알아보기로 하죠.
여러분도 한 번 진짜인지 검증해 보세요.
뭐, 다이어트를 하시는 분들은 매일 체크한 몸무게?
아니면 저처럼 골프를 치시는 분들이라면 지금까지 기록된 점수?
학생들이라면 학창시절 과목별 평균이 충분히 증명해 주겠네요.
그만큼 평균이 중요하답니다.
회귀 분석의 등장 배경을 설명하자면 평균과 정규분포에 대한 이야기를 하지 않을 수 없습니다.
뭐 솔직히는 모든 데이터 분석은 평균으로부터 시작된다고 봐야죠.
아무튼 회귀 분석은 바로 대상 집단의 평균을 분석하는 데이터 분석 기법이라는 것입니다.