brunch

매거진 지식일기

You can make anything
by writing

C.S.Lewis

by 낭만민네이션 Apr 21. 2023

회귀분석이란 무엇인가?

단순회귀분석만 오늘은 살펴보자!!

0. 들어가기


변수는 두가지로 나누어진다. 독립변수와 종속변수이다. 독립변수는 결과에 영향을 미치는 원인이라고 할 수 있다. '사람들이 여름이면 아이스크림을 많이 먹는다'라는 명제가 있다고 하면, 아이스크림 판매량에 영향을 미치는 요인은 여름이라는 단서이다. 그러니깐 기온이 올라가면 아이스크림을 많이 먹음으로 '기옥'이 독립변수가 되고, '아이스크림 판매량'은 그 결과가 되는 것이다. 그럼 이것을 일정 지역에서 5월 한달동안 기온에 따른 아이스크림 판매량을 측정해 보면 5월 동안에 기온이 높았던 날에 아이스크림이 많이 팔리는 것을 볼 수 있다. 이렇게 원인과 결과가 서로 연속되는 개념으로 이해하는 것을 '회귀분석'이라고 한다. 회귀라는 단어는 '평균으로 돌아간다'라고 하는 것이다. 그러니깐 일정한 평균을 보여준다는 것인데, 5월 동안 평균 한 지역의 아이스크림 판매량이 평균 어느정도가 된다는 것을 볼 수 있다. 그리고 더 나아가 온도가 30도 정도가 되면 아이스크림 2만개가 평균적으로 팔린다라는 예측력을 가질 수 있다.



이런 방식으로 회귀분석을 간단하게 이해해보면 이제 조금 더 재미있어 진다. 왜냐하면 아이스크림 판매량을 단지 기온으로만 보기에는 힘들기 때문이다. 아이스크림 판매량에 영향을 줄 수 있는 부분으로 지역마다 만약 가격이 다르다면 원인은 2가지가 된다. '가격'과 '기온'이 되고 결과는 '판매량'이 된다. 즉, 원인이 되는 독립변수가 2개가 되는 것이다. 그래서 이것을 '다중 회귀분석'이라고 부른다. 이런 방식으로 회귀분석을 다루어보면 다양한 경우의 수가 생기는 것을 볼 수 있다. 오늘은 '연어가 강을 거슬러 고향으로 돌아가듯이' 회귀분석이 어떻게 독립변수가 종속변수로 돌아가는지를 알아보려고 한다.



1. 회귀분석의 개념


그럼 이제 회귀분석의 개념부터 알아보자. 보통 회귀분석이 통계영역에서 어떻게 정의되는지 알아보자. 회귀분석을 한다고 하면 보통 회귀분석의 특징과 회귀분석이 어떤 의미를 가지고 있는지, 그리고 어떤 방식으로 사용하는지를 알아볼 수 있다.


회귀분석 특징

변수들 간의 함수적 관계를 탐색한다.

독립변수와 종속변수의 영향을 파악한다.

두 연속되는 변수 간의 1차적으로 '선형'관계로 표현된다. 일반적으로 우리가 많이 보는 오른쪽으로 갈 수록 올라가는 그래프가 선형이다.

영향력의 크기를 반영하고 예측을 위해서 독립변수가 1이 증가할 때 결과가 얼마나 달라지는가를 본다.

선형방식이 더 설득력이 있고 근사값을 찾기에 유리하다.

물론 선형이 되지 않아도 비선형이 된다고 해서 예측은 가능하지만 선형방식의 그래프가 나온다면 독립변수가 종속변수에 영향을 미친다고 할 수 있다.


회귀분석과 관련된 용어 정리

회귀(regression): 두 변수 간 관계가 일반화된 선형관계의 평균으로 돌아간다는 것을 의미한다.

선형성(linearity): 두 변수 간 관계가 하나의 직선 형태로 설명될 수 있다는 것이다.  

최소제곱추정량(Least Square Estimator): (실제값-예측값)의 제곱을 한 갑들의 합이 최소가 되는 값을 표현한다.

회귀분석은 수준이 하나씩 증가하는 것도 있지만 변수가 0, 1과 같이 '있다, 없다'로 정리되는 것도 있다. 이것을 로지스틱 모형이라고 한다.


회귀분석의 추정방식

회귀식 추정방식: OLS(Ordinary Least Square)와 같은 추정방식을 사용한다. 아래와 최소제곱법인데, 왜 이렇게 하냐면 제곱을 하는 것은 마이너가 나지 않게 하려고 하고, 거리가 짧다는 것은 변수간에 변수가 짧아서 선형을 나타낼 때 더 설득력이 생긴다.

최소제곱법: 각 점에서 회귀선까지의 수직거리의 제곱합을 최소로 하는 회귀계수 값 (일반적으로 활용되고 있는 회귀분석을 의미함)

OLS는 가정이 충족될 경우 BLUE(Best Linear Unbiased Estimator) Best: 회귀계수의 표준오차가 가장 작음, Linear: 선형, Unbiased: 왜곡되지 않은 추정치(모평균=표본평균)

참고: 회귀분석의 기본 가정 선형성, 오차의 등분산성(↔이분산성), 오차들의 독립성(비상관성), 독립변수와 오차의 독립성, 오차의 정규성




회귀선 추정

최소제곱법(OLS): 예측값과 실제값 차이의 제곱합이 최소가 되는 직선을 말하낟.

회귀직선의 기울기는 x가 1단위 증가할 때 y가 증가하는 정도를 나타낸다

두 변수 간 상관계수와 두 변수의 표준편차로 도출 가능


회귀분석의 설명력


결국 회귀분석은 평균적인 증가량을 나타내기 때문에 '설명력'이 중요한데, 설명력을 높이는 방법은 오차를 줄이는 것이다. 어느정도 기울기값, 즉 증가하는 패턴을 읽었다면 회귀분석을 통해서 예측을 할 수 있게 되는데 여기서 오차와 잔차가 발생한다. 오차는 모집단에서 회귀식을 통해서 얻는 예측값과 실측갑의 차이라면, 잔차residual은 표본집단에서 회귀식을 통해서 얻은 예측갑과 실제 관측값의 차이라고 할 수 있다. 특정 집단에서 어떤 패턴이 선형으로 보인다면 다른 집단에서는 보이지 않아야 그 결과나 예측력이 높아진다고 할 수 있다. 그래서 회귀분석에서 자료의 실제값은 예측값과 잔차로 구성된다.


T(실제값)=E(예측된 정도)+R(예측되지 않은 정도)


y의 총변동을 회귀직선에 의해 설명되는 변동분과 회귀직선에 의해 설명되지 않은 변동분으로 분해한 것

TSS(Total sum of squares): 전체 y의 변화량

ESS(Explained sum of squares): 회귀식으로 설명된 y의 변화량

RSS(Residual sum of squares): 회귀식으로 설명되지 않은 y의 변화량



설명력, R2

설명력(결정계수, R2) 은 결정계수를 말한다.

회귀식과 자료 간 적합 정도를 수치화한 것으로 볼 수 있다.

총변동 가운데 설명되는 변동분이 차지하는 비중이 클수록 회귀직선의 설명력 은 높아짐

결정계수(R2): 회귀직선의 설명력이 최대일 때 1, 최소일 때 0이 된다. (단순회귀분석의 경우 두 변수 간 상관계수 r2과 같음) 다시 말하면 결정계수는 최대 1이 되면 가장 설명력이 높은 것이다. 그 이야기는 독립변수가 종속변수로 연결될 때 1:1의 비율로 연결된다는 것을 의미한다.

독립변수가 추가될수록 R2은 더 크게 나타난다. 그 말은 독립변수가 추가될 수록 어떤 현상을 설명하는 데 있어서 더 설득력이 생긴다는 의미이다. 앞에서 본 것처럼 아이스크림 판매량이 높아진다는 것은 기온이라는 변수만으로 설명할 때보다, 가격이라는 변수가 추가되면 설명력이 올라가는 것이다.



2. 회귀분석을 진행할 때 고려할 사항


그럼 회귀분석을 할 때 어떤 부분을 고려해야할까? 다시 말하면 오차 발생을 더 줄이고, 임의성을 덜 줄여서 설득력을 높이기 위해서 주의해야할 사항들을 말한다. 다음과 같은 부분을 고려해야 한다.


독립변수 선정 : 종속변수에 영향을 미칠 것으로 예상되는 독립변수를 모두 포함해야 하며, 이들 두 변수 간의 관계가 이론적 측면에서 타당한 관계여야 함 → 이론 기반 설계

측정오차 : 분석에 사용되는 모든 변수들의 관측 자료에 오류가 없어야 함 → 이론 기반 설계 (측정과정에 오류가 없어야 회귀모형에서 변수 간 순수한 영향관계를 파악 가능)

독립변수 간 상관 (다중공선성) : 독립변수가 비교적 서로 독립적이어야 함 (상관관계가 높지 않아야 함) → 요인분석(변수 결합) 또는 관계성 높은 변수 제외

다중회귀분석에서 다중공선성 문제가 발생할 수 있음 : 독립변수들끼리 비슷해서 변수들 간의 차이가 없을 수 있다. 너무 많이 분할하면 나오는 현상이다.



편향적 표본선정 : 편향된 표본이 선정될 경우 조사결과의 일반화 추정불가, 다중공선성 문제가 발 생할 수 있으며, 자료는 무작위표본으로 추출되어야 함

회귀분석의 기본 가정 위배 여부 : 선형성은 종속변수(y)와 독립변수의 회귀계수의 관계가 선형이다

오차에 대한 가정

등분산성: 잔차의 분산이 관측값에 영향을 받아서는 안 됨

오차들의 독립성(↔자기상관): 오차는 서로 독립임

독립변수와 오차의 독립성(독립변수의 외생성):

정규성: 오차는 정규분포 형태로 나타나야 한다.



3. 회귀분석의 기본가정


회귀분석을 사용한다는 것은 일정한 기본적인 가정을 바탕으로 하고 있다는 것이다. 회귀분석의 구성요소들이 만들어지는 것도 어떤 전제 혹은 가정이 있기 때문이다. 그래서 회귀분석이 가지고 있는 가정을 이해하면 언제 회귀분석을 사용하고, 어떤 부분에서 사용할 수 있는지를 구체적으로 볼 수 있다. 또한 회귀분석을 사용했을 때 가정 자체가 다르기 때문에 다른 분석에서 볼 수 없는 특징들이 나오기도 한다. 연구를 한다는 것은 이러한 가정을 이해하고 알맞은 방법론으로 적절하게 현상에 접근할 수 있다는 것을 의미한다.


기본적인 가정

회귀식의 가정(assumptions): 회귀식이 잘 작동하는 여건들을 기술해 놓은 것이다.

불편성(unbiasedness)과 효율성(efficiency)의 관점으로 판단한다.

불편성(unbiasedness) : 편의(bias)가 없는 결과란 추정치가 일관되게 너무 높거나 너무 낮게 나타나지 않는 것을 의미한다.

과대추정: 추정된 값이 원래값 보다 높게 나타나는 것을 의미한다.

과소추정: 추정된 값이 원래값 보다 낮게 나타나는 것을 의미한다.

예측한 추정값(estimate)은 원래값이 아닐 경우 과대추정되거나 과소추정될 수 밖에 없음 → 원래값만을 정확하게 예측하는 것은 불가능에 가까움

즉, 모든 추정값이 원래값과 같아야 한다는 것을 의미하는 것이 아니라, 과대추 정값과 과소추정값이 존재하지만 이들이 서로 상쇄되어 예측치들의 전체적인 평균이 원래값에 근접하는 것을 의미한다.

효율성(efficiency)추정된 값들이 원래값에 얼만큼 가깝게 분포하는지를 의미한다. (예: 과대추정 30, 과소추정 30 vs 과대추정 5, 과소추정 5 즉, 표준오차를 최대한 작게 추정하는 방식을 의미한다.)

선형성 : 종속변수(y)와 독립변수(x)의 관계가 선형이라는 것이 아니라, 종속변수(y)와 독립변수의 회귀계수의 관계가 선형이라는 것이다. 즉, 기울기의 선형성을 가진다고 할 수 있다. 하지만 대부분의 회귀모형에서 선형성의 가정이 완전히 충족되기는 어렵기 때문에 선형식으로 비선형관계도 추정할 수 있기도 하다.


오차에 대한 가정: 등분산성

등분산성: 오차의 분산이 독립변수의 값에 관계 없이 일정함

이분산성: 오차항의 분산이 일정하지 않고, 독립변수의 값에 따라 변화하는 경우이며, x값이 높게 나타날 경우 예측의 정확성이 낮아진다. (표준오차가 정확하지 않음)

이분산성 자체만으로는 회귀모형에서 어떤 편의(bias)도 발생하지 않음 (불편성에 영향을 미치지 않음)

표준오차는 등분산성을 가정하여 산출되기 때문에 이분산성이 나타날 경우 표준 오차가 정확하지 않다는 문제가 발생함 → 효율성에 문제 발생

등분산 확인 방법: White general test, Breusch-Pagan test, 잔차도 SPSS에서는 시각적(잔차도)으로 판단하는 게 일반적이다.

White general test : 잔차제곱의 변동이 독립변수와 독립변수 간의 곱에 의해서 설명되지 않을 때 등분산을 가짐

Breusch-Pagan test : White 검정에서 주효과 변수만을 포함해 검정

잔차도(산점도) 실행: 분석 → 회귀분석 → 선형 → 도표 X축 ZPRED(표준화예측값), Y축 ZRESID(표준화잔차) 선택

이분산이 존재할 경우 : 가중최소제곱법(weighted least squares: WLS) 활용하여 종속변수 로그(log) 변환: GDP, 소득 등은 로그 변환

왜도가 심한 변수 변환: 로그 또는 제곱근 변환 (정규성 확보 방안에도 적용됨)

stata에서 robust 표준오차 적용

이분산성이 표준오차를 크게 왜곡시키지 않는 한 그 자체로는 심각한 문제를 유발하지 않는다.


오차에 대한 가정: 오차들의 독립성(비상관성↔자기상관)


관측치들의 오차가 서로 상관이 없어야 함 - 자료가 군집화되거나 시간적으로 연결되어 있을 경우 오차들은 독립적이지 않음

군집화된 자료(다층 데이터) : 동일 집단에서 추출한 응답은 다른 집단에서 추출한 응답보다 더 유사할 수 있으며 확인 방법은 잔차도(residual plot)이다.  

자기상관: 잔차항들이 정(+)의 방향이나 부(-)의 방향으로 서로 상관되어 있는 현상시계열(패널) 자료에서 자기상관의 문제가 많이 나타남 (동일한 개체를 일정 시간을 두고 반복적으로 측정한 경우) → 동일한 개체가 시간별로 가지는 오차들은 독립적이지 않다.

주요한 독립변수가 모형에 반영되지 못한 경우 자기상관이 나타날 수 있으며 확인 방법은 잔차도, 더빈-왓슨(Dubin-Watson) 계수이다.

오차항들 간에 상관성이 존재할 경우 회귀계수 자체에는 편의(bias)가 발생하지 않지만, 타당한 표준오차를 추정할 수 없게 된다. 그리고 실제로는 유의미하지 않은 회귀계수가 통계적으로 유의미하게 판단되는 오류가 발생한다.

오차들 간의 상관성 문제 해결 방법 : 단순 무작위 표본추출을 통해 오차들 간의 상관성 문제를 상당 부분 제거할 수 있음 → 연구모형을 잘 설정하고 표본추출에 주의를 기울인다면 예방할 수 있으며 고려하지 않은 주요 변수를 회귀모형에 포함시켜야 한다. 군집추출을 할 경우 오차들 간의 상관성 문제에 주의를 기울여야 한다. ← 먼저 집단(조직, 학교 등)을 선정하고, 그 집단 안에서 개인을 선택할 경우

시계열(패널) 자료를 사용할 경우 자기상관 검증을 수행하는 것이 좋다.


오차에 대한 가정: 독립변수와 오차의 독립성(독립변수의 외생성)

독립변수와 오차의 독립성 : 독립변수가 오차항과 상관관계가 없어야 하며, 독립변수가 오차항과 상관관계가 존재할 경우 내생성의 문제가 제기된다.

내생성의 문제가 제기되는 경우는 다음과 같다. 누락변수에 의한 편의(omitted variable bias)가 있는 경우 특히, 누락된 변수가 독립변수와 상관관계가 높을 때 문제가 된다.  (따라서 독립변수와 상관관계가 존재할 것 같은 변수들을 모형에 포함시키는 게 좋음)

역인과관계(reverse causality)가 있는 경우 (동시성 존재) : 외생성 가정이 만족되지 않을 경우(즉, 내생성이 존재할 경우) 추정된 계수값에 편의(bias)가 존재함 → 불편성을 만족하지 못하게 되며 내생성의 문제는 피할 수 없기 때문에 완전한 해결 보다는 최소화하려는 접근 필요하다.

누락변수의 의한 편의(omitted variable bias) : 종속변수에 영향을 주면서 다른 독립변수들과 상관관계를 가지는 누락된 독립 변수가 있는 경우에 나타난다. 오차에 아직 설명될 부분이 남아있다는 의미이다.

역인과관계 : 종속변수가 오히려 독립변수에 영향을 줄 수 있는 인과적 방향성이 성립하는 경우이며, 이러한 문제를 통제하기 위해 다중회귀분석 및 통제 (완벽하지는 않음) 도구변수를 활용한 회귀분석, 또는 패널데이터를 사용한 연구 모형을 통해 해결한다.

사회과학 연구에서 변수들은 서로 상관관계가 높고, 역인과관계 가능성이 상존함 회귀분석으로는 인과관계를 파악할 수 없으며, 따라서 회귀분석에 앞서 연구질문을 나타낼 수 있는 종속변수와 독립변수의 관계에 대한 이론적 논의가 중요하다.



오차에 대한 가정: 정규성

정규성: 자료의 양상이 정규분포 형태를 보이는 것 (잔차가 정규분포 형태로)

자료의 분포가 정규성과 다르지 않다는 관점에서 정규성을 판단해야 함 (대락적인 분포가 정규분포와 비슷한지 확인하는 것)

오차 또는 잔차가 평균 0, 표준편차의 정규분포를 따르며, 잔차의 합은 0이 된다.

정규성 확인 방법: 잔차도표, 왜도 및 첨도, 정규성검정

정규성검정은 잘 사용하지 않음 (충족되지 않는 경우가 많음)

잔차도표 실행: 분석 → 회귀분석 → 선형 → 도표 X축 ZPRED(표준화예측값), Y축 ZRESID(표준화잔차) 선택 표준화 잔차도표 항목에서 히스토그램, 정규확률도표 선택

왜도 및 첨도 (기술통계량)의 실행: 분석 → 기술통계량 → 기술통계 → 옵션

판단기준 왜도의 절대값 3 이하, 첨도의 절대값 10 이하

왜도의 절대값 2 이하, 첨도의 절대값 4 이하를 기준으로 적용하기도 한다. 각 변수들이 가지고 있는 왜도와 첨도의 절대값 크기를 이용하여 정규성 검정 을 실시하였다(Curran et al., 1996).


이상치 진단

모든 관측치가 동일하게 신뢰할 수 있고, 회귀모형의 결정에 거의 동등한 역할을 한다는 가정이다.

특정 관측치가 예외값(outlier)을 가지면 회귀모형에 큰 영향력을 행사하여 그 관측치가 없는 경우에 비해 회귀모형이 전혀 다르게 나타날 수 있다.

지레값(leverage)이란 각 사례(case)들이 회귀식에 미치는 영향력으로서 어떤 사례가 회귀선 자체를 자신에게 끌어들이는 정도를 의미하며, 어떤 사례의 지레값이 크다는 것은 해당 사례가 회귀계수에 큰 영향을 미친다는 것을 의미함

정규성, 등분산성 등의 검정에서 문제가 발생할 경우, 몇 개의 이상치에 의해 나 타난 문제일 수도 있음 → 오차(예측치와 관측치의 차이)가 크게 나타날 경우

이상치(outlier)란 통계적 진단이 명확하지는 않으나, 일반적으로 회귀분석에서 표준화 잔차가 2.5 이상인 경우를 이상치로 봄 ※ 경우에 따라서 표준화 잔차와 제거 잔차를 함께 고려하여 판단할 수도 있음 (제거 잔차: 각 사례의 지레값을 고려한 잔차)

이상치를 제거하는 게 좋은 것인지?연구자가 제거 등 처리 여부 판단해야 함 (자료 자체에 심각한 오류가 없음에도 불구하고 이상치가 발견되었다면 무조건 제거하기 보다는 그 속에 담긴 의미가 무엇인지를 찾으려고 노력해야 함)

이상치를 제거하는 게 좋은 것인지? : 이상치를 제거한 분석 결과와 원래 분석 결과를 함께 제시해 주는 것도 하나의 방법이다. 표본의 크기를 크게 할 경우 이상치의 영향을 최소화할 수 있다.  

실행: 분석 → 회귀분석 → 선형 → 저장 잔차 항목에서 표준화 선택

잔차 중 표준화를 선택하고 분석을 수행하면 ZRE_1이라는 변수가 생성되며, 해당 변수의 값에서 2.5 이상의 값(표준화 잔차)을 확인하여 제거 여부 결정한다.



4. 회귀분석 분석과정


이제 회귀분석의 요소들을 알아봤고, 가정 및 고려할 사항들을 알아 보았다면, 분석 순서를 살펴볼 때가 되었다. 보통 회귀분석은 다음과 같은 순서로 진행을 한다.

회귀가정 진단: 등분산성(잔차도), 오차들의 독립성(Dubin-Watson 계수), 정규성(왜도 및 첨도)

이상치 진단: 이상치 확인, 이상치 제거 여부 판단

다중공선성 진단(상관분석, VIF)

분석 및 결과해석: 설명력, F값, 회귀계수, 회귀계수의 유의확률(t값)



변수 해석 방법

독립변수, 종속변수: 독립변수가 1단위 증가할 때 종속변수의 변화 정도(B)

독립변수(로그), 종속변수: 독립변수가 1% 증가할 때 종속변수의 변화 정도(B/100)

독립변수, 종속변수(로그): 독립변수가 1단위 증가할 때 종속변수의 변화 정도(Bx100)%

독립변수(로그), 종속변수(로그): 독립변수가 1% 증가할 때 종속변수의 변화 정도(B)%


0. 나오기


오늘은 간단하게 회귀분석에 대해서 알아보았다. 기울기를 통해서 선형을 이루는 직선을 찾아내는 것이 단순회귀분석이라고 할 수 있다. 물론 단순회귀분석은 이제 거대한 서막일 뿐이다. 다중회귀분석을 포함해서 다양한 회귀분석들이 존재한다. 세상을 움직이고 변화시키는 것은 하나의 변수가 아니라 엄청나게 많은 요인들이 있기 때문에 회귀분석을 이해한다면 고려할 사항을 파악할 수 있고, 전제하고 있는 것들을 이해한다면 언제 회귀분석을 써야할지 알 수 있을 것이다. 대학원에서 통계 수업을 들으면서 하나하 공부하고 있는데 어렵지만 이것도 세상을 이해하는 하나의 방법이라는 생각이 든다. 물론 이것은 영미철학에서도 분석철학, 실증주의를 반여한 양적연구여서 그 문화에서는 당연하지만 유럽이나 동양문화에서는 완전히 다른 연구방법이기는 하다. 메타인지를 적절히 사용하여 변화와 문제를 다양하게 접근하고 또 그 방법론도 잘 사용해야 한다. 아직도 갈 길이 멀다. 중간중간 들어간 ppt는 대학원에서 발표한 자료들이다.




https://www.youtube.com/watch?v=R0teCe1SXCg&t=13s

논쓰남 영상에서 가장 많은 도움을 받았습니다!


https://brunch.co.kr/@minnation/3385


실제로 논문을 쓸때는 회귀분석 자체만 사용하지 않고 위계적 회귀분석이나 패널분석, 매개분석과 같은 방법으로 섞어서 쓰는게 요즘 대세라고 한다. 가장 중요한 것은 변수를 찾을 수 있는 이론에 대한 정확한 이해와 이론을 바탕으로 가장 적합한 방법론을 찾는 것이다.

매거진의 이전글 박사학위 논문을 쓸때 어떻게 방법론을 설정해야 할까?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari