brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jun 20. 2023

실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(6)

변수의 관계를 찾는 상관 분석과 회귀 분석(1)

안녕하세요, 브래드입니다.


오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」여섯 번째 시간으로 변수의 관계를 찾는 상관 분석과 회귀 분석에 관해 함께 알아보아요.





상관분석

상관 분석은 연속형 변수로 측정된 두 변수 간의 선형관계를 분석하는 기법입니다. 


여기서 연속형 변수는 산술 평균을 계산할 수 있는 숫자형 데이터를 말하며 키, 뭄무게, 나이 등이 존재합니다.


선형관계는 비례식이 성립되는 관계를 말하며 A라는 변수의 증가가 B라는 변수에 증가 혹은 감소와 같은 영향을 미치는지 분석하는 것입니다.




상관 분석을 위해선 두 변수 사이의 선형관계 정도를 나타내기 위하여 상관계수를 사용합니다.


상관계수는 두 변수 사이의 관계(상관관계)의 정도를 나타내는 수치이며, 기술 통계 값의 범위는 -1과 +1 사이입니다. 


해당 도서 내에서 상관계수를 쉽게 이해할 수 있도록 돕는 표가 있어서 재구성하여 첨부합니다.




두 변수가 같은 방향으로 변하면 이들의 상관관계를 '직접 상관관계' 또는 '양의 상관관계'라고 말하며, 두 변수가 반대 방향으로 움직인다면 '간접 상관관계' 또는 '음의 상관관계'라고 말합니다.


기본적인 상관관계의 개념은 위와 같으며, 추가적으로 상관계수에 대해 알아두어야 할 사항은 다음과 같습니다.

- 상관계수는 소문자 r로 표시되며, 상관계수 r은 상관 정도의 방향에 따라서 -1.0에서 +1.0 사이의 값을 가집니다. 두 변수 간의 관계가 전혀 없을 때는 r=0.0이고 정도에 따라 r은 0.0부터 1.0까지의 값을 갖습니다.

- 상관계수는 항상 사례당 최소 2개의 데이터 요소(또는 변수)가 있는 상황을 반영합니다.

- 상관계수의 절댓값은 상관관계의 강도를 반영합니다. 즉, -0.7의 상관관계는 +0.6의 상관관계보다 강합니다. 

- 상관계수의 절댓값이 상관관계의 강도를 반영한다고 했으므로, 양의 상관관계가 음의 상관관계보다 항상 더 강하다는 것은 사실이 아닙니다.

- r(xy)는 변수 x와 변수 y의 상관관계를 나타냅니다.
 예시) r(키, 몸무게) = 키가 커지면 몸무게가 증가한다 




상관 분석 실습

해당 데이터는 국가통계포털 내에 존재하는 국내 숙박여행 횟수 및 숙박여행 지출액 데이터입니다. 해당 두 데이터를 산점도 차트로 나타내었더니 그림과 같이 우상향 함을 알 수 있습니다. 즉, 두 데이터는 상관관계가 존재함을 알 수 있습니다.




본격적인 상관분석 위해선 [데이터] 탭 - [데이터 분석]을 클릭하여 입력범위 / 출력 범위 / 첫째 행 이름표 사용 등을 체크한 후 결괏값을 다음과 같이 출력해 줍니다. 


숙박여행 지출 액 및 숙박여행 횟수가 교차하는 셀을 확인해 보니 상관계수가 약 0.9로 강한 직접 상관관계가 존재함을 알 수 있습니다. 


*여기서 주의해야 할 점은 상관관계가 있다고 반드시 인과관계가 존재하는 것은 아니므로 해당 사실을 인지해야 합니다

**변수 A와 변수 B가 상관관계에 있다고 해서 한쪽 변수가 다른 변수의 원인임이 반드시 입증되지 느 않으며, 수많은 변수가 원인으로 작용하는 사례들이 있기 때문입니다. 





회귀 분석

회귀 분석둘 이상의 변수 사이에 어떠한 관계가 있는지를 보여 주는 통계 기법입니다.


원인 변수를 사용하여 결과 변수를 예측하도록 돕는 적절한 관계식을 구하는 분석 방법입니다. 


회귀 분석을 통해서 시간에 따라 변화하는 데이터 및 인관관계의 모델링 등을 진행할 수 있습니다.




회귀 분석의 조건은 크게 다음과 같습니다.


첫째, 공변성입니다. 공변성은 두 변수가 함께 움직이는 경향을 가져야 함을 말하며, 변수 A가 변화할 때 변수 B도 함께 변화해야 합니다.


둘째, 선후관계입니다. 시간적으로 어느 하나가 먼저 변화했을 때 다른 하나가 뒤따라 변화하는 관계여야 합니다.


셋째, 비허위성입니다. 두 변수가 공변 하고 시간적 선후관계가 존재하며 추가적으로 제3의 다른 변수로는 설명될 수 없어야 합니다. 




단순 회귀 분석 식

회귀 분석은 회귀 모형에 따라 하나의 종속 변수에 대해 독립 변수가 하나인 경우인 단순 회귀 분석, 하나의 종속 변수에 대해 독립 변수가 둘 이상인 다중 회귀 분석이 존재합니다. 


단순 회귀 분석은 독립 변수 X가 종속 변수 Y에 미치는 영향을 회귀 식으로 분석하는 방법입니다. 


위 단순 회귀 분석 식은 베타 제로를 절편으로, 베타 원을 기울기로, 엡실론을 오차항으로 갖고 있습니다.




 

엑셀 내에서 회귀분석을 진행해 보겠습니다.


예제 데이터를 활용하여 1인당 GDP가 행복에 미치는 영향을 파악해 볼게요.


[데이터] 탭 - [데이터 분석] - [회귀분석]을 클릭하여 다음과 같은 창에 들어갑니다.


그리고 1인당 GDP(독립변수)가 행복에 미치는 영향(종속변수)을 파악해야 하므로, Y축 범위에는 행복 점수 데이터 범위를 입력하고 X축 입력 범위에는 1인당 GDP 데이터 범위를 입력해 줍니다.


출력 범위를 설정하고 이름표에 체크 및 잔차에 체크하여 회귀 분석을 진행해 줍니다.




위 이미지는 회귀 분석 결과를 보여주고 있습니다.


회귀 분석 결과의 결정 계수는 0~1 사이의 값으로, 크기가 클수록 신뢰성을 확보합니다.


위 회귀 분석의 결과로 결정계수는 약 0.62이므로 1인당 GDP의 변화량이 행복 점수의 변화로 설명할 수 있는 정도가 약 62% 임을 알 수 있습니다. 




잔차

회귀 분석 결과를 검증하기 위해선 회귀계수에 대해 알아야 합니다.


단순 회귀 분석 식에서도 살펴봤듯이, 회귀계수는 베타 제로인 Y절편과 베타 원인 기울기를 통해 파악할 수 있습니다.


이러한 베타 제로와 베타 원을 구하기 위해선 최소제곱법을 활용해야 합니다. 이때 우리는 잔차라는 개념을 알아야 합니다.


잔차는 실제 출력 변수와 예측한 출력 변호의 차이를 말합니다. 잔차는 다음과 같은 특성을 갖습니다.

*잔차의 합은 항상 0으로, '모든 편차의 합은 0이다'와 같은 개념입니다.

*분산을 구할 때 편차를 제곱해서 사용하는 것과 같은 원리로 최소제곱법을 계산할 때도 잔차를 제곱해서 사용합니다.

*자료와 평균의 차이를 구해서 더하면 평균의 정의로 인하여 잔차의 합은 반드시 0이 됩니다. 따라서 잔차를 제곱하여 0보다 큰 수로 만든 후 이 값을 누적한 합으로 사용합니다.

*잔차를 관측값 순서로 산점도를 그리면 어떤 패턴도 나타나지 않아야 합니다. 잔차는 실제 Y값이 직선으로 표현되는 Y값에서 얼마나 떨어져 있는지를 알려 주는 값으로, 각 잔차는 세로 실선으로 나타나기 때문입니다.  




실제로 앞서 구했던 회귀 분석 결과에서 잔차의 합을 구하면 다음과 같이 0이 나옴을 알 수 있습니다.




출처: 더북

최소제곱법과 잔차 및 예측값의 관계는 다음과 같습니다.


우리는 최소제곱법을 알기 위하여 잔차의 개념을 살펴보았으며, 최소제곱법을 통해 베타 제로와 베타 원을 구할 수 있습니다.


이때, 측정치들을 모두 만족하는 회귀선이 존재할 가능성은 매우 희박하므로 측정치와 가장 차이가 적게 나는, 즉 잔차가 가장 적은 회귀선을 구하는 것을 최선으로 해야 합니다. 


최소제곱법을 구하는 과정은 다음과 같습니다.

1. 회귀선과 관측 데이터까지의 잔차를 최소로 한다.
2. 잔차를 제곱해서 더한 후 그것이 최소가 되도록 절편과 기울기를 선택한다.
3. 회귀선이 추정된다. 

*최소제곱법은 베타 제로와 베터 원에 가까운 값을 구하는 방법으로, 근사적으로 구하려는 해와 실제 해의 오차의 제곱이 최소가 되는 해를 구합니다. 
**이렇게 계산한 잔차제곱의 합은 SSE(Sum of Square Error)라고 부릅니다. 





오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」여섯 번째 시간으로 변수의 관계를 찾는 상관 분석과 회귀 분석에 관해 함께 알아보았습니다.


특히, 회귀 분석 중 단순 회귀 분석 및 개념에 대해 살펴보았으며 다음 시간에는 단순 회귀 분석 검증을 위한 개념을 함께 살펴보겠습니다.


브래드였습니다. 감사합니다.

매거진의 이전글 실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(5)
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari