다중 선형 회귀 2

Multiple Linear Reg

by 별더하기

‘평균 그거 나도 구할 줄 아는데? 회귀 분석 뭐 별거 아니네?’

네 맞습니다.

평균 못 구하는 분들 없죠.

다만 평균을 구하는 게 아니고 평균을 분석한다는 점이 다른 것이죠.

근데 평균을 구하는 것도 아니고 분석해서 뭘 하려고 하는 것일까요?

혹시 여러분들은 평균을 구할 때 어떤 목적으로 평균을 구하게 되나요?

다음의 상황을 볼까요?

성실하고 예의 바른 친구 영희의 고등학교 2학년 까지의 수학 성적입니다.



영희는 중간시험에서는 평균 92점, 기말시험은 평균 93점 그리고 중간, 기말 모두 합친 평균 점수는 대략 92점입니다.

자 그러면 3학년이 된 영희는 1학기 중간시험과 기말시험에서 수학과목에서 몇 점을 기대할 수 있을까요?

그렇죠?

평균점수를 볼 때 적어도 92점 이상을 기대할 만합니다.

특별히 공부를 하지 않는 경우가 아니라면 충분히 기대해 볼만한 점수가 됩니다.

여기서 우리는 용어를 살짝 바꿔 보도록 하죠.

‘기대’에서 ‘예상’으로 말이죠.

그러면 영희의 수학점수는 평균만큼은 예상이 됩니다.

어떤 가요?

평균을 구하는 목적이 조금은 감이 오지 않나요?

반드시 평균이 예상하기 위한 건 아니지만, 평균은 다음 상황을 예상해 주는 수치로 부족함이 없어 보입니다.

다시 회귀 분석으로 돌아와 봅니다.

회귀 분석은 집단의 평균을 분석합니다.

왜, 집단의 평균을 분석할까요?

맞습니다.

바로 다음 상황을 예측하기 위한 분석인 것이죠.

이제 우리는 앞에 어떤 수식이 붙던 ‘회귀 분석’이 나오면 ‘예측 기법이겠구나’ 생각하면 됩니다.

다중 선형 회귀 분석도 당연히 예측기법이 되겠죠.


‘다중 선형 회귀 분석’에서 회귀 분석에 대한 설명은 끝났습니다.

자 이제 그럼 ‘다중’이라는 용어가 가지는 의미는 무엇인지 살펴보기로 하죠.

이를 설명하기 위해서는 회귀 분석이 수행한다는 집단의 평균을 구체적으로 어떻게 분석하는지 이해해야 합니다.

결론부터 말씀드리면 핵심은 ‘집단’에 있습니다.

회귀 분석에서 ‘집단’의 의미는 우리가 일반적으로 생각하는 ‘Group’의 개념과는 다소 차이가 있습니다.

여기서의 ‘집단’은 분석을 위해 수집하고 관측한 데이터 ‘집합 (Set)’의 개념에 더 가깝습니다.

앞서 영희의 수학 성적을 다시 살펴봅니다.

영희의 3학년 수학성적을 ‘예측’하기 위해 1, 2학년 총 8번의 수학 성적을 수집했습니다.

여기서 ‘집단’은 바로 1, 2학년, 8번의 수학성적이 되는 것이죠.

앞서 치러진 8번의 ‘수학’성적은 뒤에 치러질 수학시험의 성적을 충분히 설명할 수 있는 것이죠.

그래서 자신 있게 다음과 같이 말할 수 있습니다.


“영희는 앞서 8번의 시험에서 수학성적이 평균 92점 정도 이기 때문에 다음 수학 시험의 결과도 대략 92점 정도일 것으로 예상됩니다.”


영희의 수학성적은 원인결과가 명확합니다.



이쯤에서 회귀 분석에 대한 정의를 다시 세워 봅니다.

‘회귀 분석은 집단의 평균을 분석해서 인과관계를 설명하는 예측 기법이다.’

이렇듯 회귀 분석은 인과관계가 핵심이 됩니다.

원인과 결과의 관계가 충분히 설명되어야 회귀 분석은 성립되는 것이죠.

영희의 3학년 수학성적을 예측하는데 앞서 8번의 국어성적을 원인으로 활용하면 좀 이상합니다.

물론 전혀 불가능 하지는 않겠죠.

다만 국어성적이 수학성적과 관계가 있다는 점을 우선적으로 명확하게 증명해야 합니다.

keyword
매거진의 이전글다중 선형 회귀 1