brunch

You can make anything
by writing

C.S.Lewis

by gimmesilver Dec 31. 2020

회귀 분석의 이해 #4

회귀 분석 결과 해석하기

(1편 보기)

(2편 보기)

(3편 보기)


    지금까지 회귀 분석과 관련된 기본적인 이론을 알아봤으니 이제는 간단한 예제 데이터를 이용해 회귀 분석을 어떻게 하는지 예를 들어 보겠습니다. 회귀 분석은 크게 보면 아래와 같이 세 가지 작업으로 나눌 수 있습니다.


1. 모델 적합도 분석: 설계한 회귀 모형이 실제 데이터에 잘 적합하는지 확인

2. 변수 영향력 분석: 특정 변수(조건)이 종속변수와 정량적으로 얼마만큼의 관계를 갖는지 확인 

3. 예측 및 평가: 특정 조건에서 종속 변수 값이 무엇일지 추정치를 계산하고 그 결과가 얼마나 정확한지 평가


1) 모델 적합도 분석

    내가 설계한 회귀 모형이 실제 데이터에 잘 맞는지 확인하기 위한 작업입니다. '회귀 분석의 이해 #2' 에서 설명했듯이 선형 회귀 모델을 통해 구한 조건부 평균이 실제 내가 파악하려고 하는 대상을 대표하는 적절한 값이 되려면 정규성, 독립성, 등분산성 이라고 하는 조건을 충족해야 합니다. 모델 적합도 분석은 바로 이런 조건을 얼마나 충족하는지 확인하는 작업입니다. 세부적으로는 아래와 같은 작업들이 있습니다.

모델 유의성 검정

모델의 설명력 측정

잔차 분석 

아웃라이어 확인


2) 변수 영향력 분석

    '회귀 분석의 이해 #1' 에서 아파트 가격에 대한 예시에서 설명했듯이 회귀 모델을 이용해서 조건부 평균을 구하면 각 조건(회귀변수)들이 아파트 가격에 미치는 효과를 직관적이고 정량적으로 파악할 수 있습니다. 이를 위해 변수 영향력 분석에서는 다음과 같은 작업을 합니다.

회귀 변수의 통계적 유의성 검정

회귀 계수 추정치 확인

회귀 계수 추정치에 대한 표준오차와 신뢰구간 확인


3) 예측 및 평가

    회귀 분석이 가진 또다른 장점은 과거에 한번도 관측되지 않은 조건에 대해서도 기대값을 추정할 수 있다는 점입니다. 그런데 보통은 생성된 모델을 그냥 즉시 실전에 사용하기 보다는 해당 모델의 추정치가 얼마나 정확한지를 정량적으로 평가하는 작업을 먼저 수행합니다.  


    '1) 모델 적합도 분석'은 모델이 잘 만들어졌는지를 확인하는 작업이기 때문에 기본적으로 꼭 필요한 작업이며, 이후 분석의 주요 목적이 데이터가 가진 특성을 파악하는 것에 있다면 '2) 변수 영향력 분석', 예측에 있다면 '3) 예측 및 평가'에 더 중점을 두고 진행하게 됩니다. 

    아래 예제에서는 회귀 분석의 목적이 데이터 특성 파악에 있다라고 가정하고 분석을 진행하겠습니다.


아파트 가격에 대한 회귀 분석 예제

    위 첨부 파일은 아파트 면적과 층수, 가격으로 이뤄진 회귀 분석 실습용으로 만든 가상의 데이터입니다. 이 데이터를 R에서 불러온 후 간단히 확인해 보면 아래와 같습니다. 참고로 여기서 area 는 아파트 면적 (단위는 제곱미터), floor 는 층수, price 는 아파트 가격 (단위는 만원) 을 의미합니다. 

    이제 이 데이터에 대해서 회귀 분석을 수행하면 면적과 층수라는 조건을 고려한 평균 아파트 가격을 구할 수 있습니다. R에서는 lm 이라는 함수를 이용해서 회귀 모델을 생성할 수 있습니다.


model <- lm(formula = price ~ area + floor, data = house.price)


    위 코드가 의미하는 것은 'house.price 라는 데이터를 이용해서 price를 종속변수로 하고, areafloor를 회귀변수로 하는 회귀 모형을 생성한 후 그 결과를 model 이라는 변수에 저장해라' 입니다. 이렇게 해서 생성된 모델의 결과를 summary() 함수를 이용해서 확인하면 아래와 같습니다. 

     위 그림에서 (1) 은 회귀 모델 생성을 위해 실행한 코드가 무엇인지를 다시 확인하기 위한 용도로 표시되는 정보이며, 그 이후부터가 실제 회귀 분석 결과입니다. 먼저 (2)와 (4)는 모델 적합도 분석을 위해 필요한 정보이고, (3)은 변수 영향력 분석을 위해 필요한 정보입니다. 


1) 아파트 가격 회귀 모델 적합도 분석

    위에서 언급했듯이 회귀 모델이 데이터를 얼마나 잘 적합하는지 확인할 때는 보통 아래와 같은 항목을 점검합니다.

모델 유의성 검정

모델의 설명력 측정

잔차의 정규성, 독립성, 등분산성 검정

아웃라이어 확인


1-1) 모델 유의성 검정

    모델 유의성 검정이란, 실제 모집단(이 예제의 경우 존재 가능한 모든 아파트 가격 정보)의 특성이 내가 설계한 모델과는 전혀 맞지 않지만 내가 관측한 샘플 데이터에서는 우연히 맞은 것은 아닌지를 통계 기법을 써서 확인하는 것을 말합니다. 좀 더 통계학적으로 말하자면, '실제 모집단 데이터를 이용해서 회귀 모델을 생성했을 때는 모든 회귀 변수의 계수가 0이라고 가정했을 때, 임의로 샘플링한 자료에서 지금 측정된 통계량과 같거나 그보다 더 극단적인 값을 우연히 갖게될 확률이 충분히 낮은지를 확인' 하는 것입니다. 좀 말이 어려운데, 좀 더 쉽게 말하자면, 내가 다른 데이터를 이용해서 똑같은 회귀 분석을 하더라도 지금 결과와 완전히 다른 결과가 나올 가능성이 적은지를 확인하는 것이라고 이해하시면 되겠습니다. 

    암튼 회귀 모델의 유의성 검정은 회귀 모델 결과의 (4) 항목에 맨 마지막 줄(아래 분석 결과에서 빨간색으로 표기한 부분)에 있는 내용을 보고 판단합니다. 이 자료에서 F-statistic 이라는 값은 '3653 on 2 and 284 DF' 라고 되어 있고 p-value 라는 값은 '< 2.2e-16' 이라고 되어 있는데, 보통 p-value 가 0.05 (좀 더 보수적으로는 0.01) 보다 작으면 모델이 통계적으로 유의하다라고 판단합니다. 


Residual standard error: 1429 on 284 degrees of freedom

Multiple R-squared:  0.9626,Adjusted R-squared:  0.9623 

F-statistic:  3653 on 2 and 284 DF,  p-value: < 2.2e-16


    F-statistic (우리말로 F 통계량이라고 부름) 이 '3653 on 2 and 284DF' 라는 건 '회귀 변수가 2개이고 자유도가 284인 상황에서 F 통계량이 3653 이다' 라는 의미입니다. 자유도나 F 통계량은 좀 복잡한 통계 이론이 필요하니 자세한 설명은 여기서 생략하겠습니다.

    p-value (우리말로 p 값이라고 부름) 는 '< 2.2e-16' 라고 되어 있는데 이것은 2.2e-16 보다도 작은 값이다 라는 뜻입니다. 2.2e-16 은 '부동 소수점 표기법' 이라고 부르는 표기 방식인데 2.2 * 10^(-16) 즉, 0.000000000000000022 입니다. 굉장히 작은 값이나 큰 값을 좀 더 쉽게 표기하기 위해 많이 사용하는 방법입니다. 결국 위 자료에서 p 값은 거의 0에 가까운 매우 작은 값이죠. 

    위 결과에 의하면 예제 데이터에 대한 회귀 모델은 통계적으로 충분히 유의하다(즉, 다른 아파트 가격 데이터를 이용해 똑같은 방식으로 회귀 분석을 하더라도 전혀 다른 결과가 나올 가능성은 낮다)라고 볼 수 있습니다 . 


1-2) 모델의 설명력 측정

    모델의 설명력이란 실제 아파트 가격을 이 회귀 모델이 얼마나 잘 설명하고 있는지를 나타내는 지표입니다. 이걸 R-squared (R 제곱) 이라고 부릅니다. 아래 자료에 보면 R 제곱값이 두 개 (Multiple R-squared 와 Adjusted R-squared) 나와 있는데, 보통 설명력 지표로 사용하는 건 Adjusted R-squared 입니다. R 제곱값은 0~1 사이의 값을 갖는데 이 값이 1에 가까울수록 회귀 모델이 추정한 평균 가격과 실제 아파트 가격의 차이가 작다는 것을 의미합니다. 

    이 회귀 분석 결과에서 R 제곱값은 약 0.96 입니다. 이것의 의미는 실제 아파트는 면적과 층수가 똑같더라도 가격이 차이가 있겠지만, 그 차이가 아파트 가격의 4% (1 - 0.96 = 0.04) 정도에 불과하다는 뜻입니다.


Residual standard error: 1429 on 284 degrees of freedom

Multiple R-squared:  0.9626,Adjusted R-squared:  0.9623 

F-statistic:  3653 on 2 and 284 DF,  p-value: < 2.2e-16



1-3) 잔차 분석 

     '회귀 분석의 이해 #2' 에서 설명했듯이 회귀 모형을 통해 구한 조건부 평균이 실제 데이터를 잘 대표하는 값이 되려면 잔차가 정규성, 독립성, 등분산성 이라는 가정을 만족해야 합니다. 이 가정들을 만족하는지 확인하는 방법은 다음과 같습니다. 


1-3-a) 정규성 검정

    회귀 모델 결과 중 (2) Residuals 는 잔차의 정규성을 개략적으로 확인할 때 사용됩니다.


Residuals:

      Min           1Q    Median        3Q        Max 

-3707.6    -990.5       -70.6    930.8    3579.4  


    Residuals 항목은 잔차의 최소값(Min), 1분위값(1Q), 중앙값(Median), 3분위값(3Q), 최대값(Max) 이 무엇인지를 나타냅니다. 정규분포는 중앙값이 평균과 같고 이를 중심으로 좌우 대칭으로 퍼지는 형태이기 때문에 1Q와 3Q, Min과 Max 의 절대값이 같습니다. 결국 위 Residuals 에 나온 수치가 이 조건에 가까울수록 잔차의 분포가 정규 분포의 형태를 띄는 것이고, 회귀 모형이 데이터를 잘 적합할 가능성이 높은 것이죠. 

    하지만 좀 더 정확히 판단하기 위해선 이 정보만 보고 판단하기 보다는 모델의 잔차들을 직접 이용해서 정규성을 확인하는 것이 좋습니다. R에서는 아래와 같이 할 수 있습니다.

    plot(model, 2) 를 실행하면 잔차와 이상적인 정규 분포를 비교하는 Q-Q plot이 그려집니다. 만약 잔차가 정규 분포에 가깝다면, 이 그래프에 표시된 잔차들이 대각선으로 그려진 점선에 가깝게 표시됩니다. 좀 더 정량적으로 확인하고 싶다면 shapiro.test 를 이용할 수 있습니다. shapiro test 는 어떤 데이터의 정규성을 확인하는 검정 기법인데 검정 결과로 나온 p-value 가 0.05 보다 크다면 정규성을 만족한다고 볼 수 있습니다. 

    결국 위 결과에 의하면 shapiro.test 의 p-value가 0.1345 인데, 0.05 보다 크기 때문에 우리 회귀 모델은 잔차의 정규성을 만족하고 있습니다 (좀 더 엄밀하게 말하면, 잔차의 분포가 정규 분포가 아니라고 말하기 어렵다).


1-3-b) 독립성 검정

    잔차의 독립성을 보기 위해 아래 세 가지를 확인합니다.

회귀 모델을 통해 구한 예측값과 잔차와의 독립성

잔차와 회귀 변수 사이의 독립성

잔차끼리의 독립성


    예측값과 잔차와의 독립성은 plot(model, 1) 을 실행해서 확인합니다. 아래와 같이 residuals  값이 fitted value 에 상관없이 +/- 에 고르게 무작위로 분포되어 있고 빨간색 실선이 가운데 수평선에서 크게 벗어나지 않으면 독립성이 있다고 판단합니다. 잔차와 회귀 변수 사이의 독립성도 scatter plot 을 통해  확인할 수 있습니다. area나 floor 값이 무엇인지에 상관없이 잔차가 +/- 값에 고르게 무작위로 분포하고 있으면 독립성이 있다고 판단합니다. 마지막으로 잔차끼리의 독립성은 Durbin-Watson test 라는 방법을 통해 확인합니다. 이 검정을 통해 구한 p-value 가 0.05 보다 크면 잔차끼리 독립성이 있다고 판단합니다 (좀 더 정확히 말하면, 잔차 간에 자기 상관성이 있다고 볼 수 없다). 

    이 예제의 회귀 모델에 대한 독립성 검정 결과는 아래 그림과 같습니다. 결과에 의하면 아파트 가격 회귀 모델은 잔차의 독립성 가정을 만족합니다.



1-3-c) 등분산성 검정

    잔차의 등분산성이란 잔차가 회귀 모델의 예측치 값에 상관없이 분산이 일정하다는 뜻입니다. 이것 역시 그래프를 통해 개략적으로 확인할 수 있습니다. 아래와 같이 plot(model, 3) 을 실행해서 나온 그래프의 잔차가 fitted value에 상관없이 고르게 퍼져있고 빨간색 실선이 비교적 일정하게 가운데 수평선을 유지하면 등분산성을 만족한다고 판단해도 됩니다. 


plot(model, 3)

    그래프가 아니라 통계 기법을 이용해서 등분산성을 검정하는 방법도 있습니다. 다양한 방법이 있는데 그 중에 하나를 소개하자면, 잔차의 제곱값에 대해서 회귀 모델을 만든 후 그 모델에 대한 유의성 검정을 하는 것입니다. 만약 잔차의 분산이 일정하지 않고 점점 커지거나 작아진다면, 잔차의 제곱값의 조건부 평균이 회귀 변수에 따라 달라질 가능성이 크기 때문에 이렇게 만든 회귀 모델도 유의성을 가질 가능성도 크겠죠. 반대로 잔차의 분산이 일정하다면, 제곱값은 회귀 변수와 관련이 없을 것이기 때문에 모델은 적합도 검정을 통과하지 못할 것이고, 모델은 통계적으로 유의하지 않다고 나올 것입니다.

    예시로 사용한 아파트 가격에 대한 회귀 모델 역시 잔차의 제곱값에 대해 area와 floor 로 회귀 모델을 만들어 보면, 아래 그림과 같이 모델의 p-value 가 0.0687 로 나와 기준값인 0.05보다 크기 때문에 유의성 검정을 통과하지 못합니다. 따라서 잔차의 등분산성을 만족한다고 볼 수 있습니다.



1-4) 아웃라이어 확인

    아웃라이어가 있는지는 확인하는 방법 역시 여러 가지가 있지만 그 중에 비교적 보편적으로 많이 사용하는 방법은 cook's distance 라는 지표를 측정하는 것입니다. 이것은 cooks.distance(model) 을 실행해서 직접 구할 수도 있고 plot(model, 4) 를 실행하면 아래와 같이 그래프로 확인할 수도 있습니다. 상황에 따라 차이가 있긴 하지만 대체로 cook's distance 가 1 보다 큰 데이터는 아웃라이어라고 볼 수 있습니다. 

    아래 그림을 보면, 아파트 가격에 대한 회귀 모델은 cook's distance 의 최대값이 0.03 정도이기 때문에 아웃라이어가 없다고 판단됩니다.  



2) 아파트 가격 회귀 모델 변수 영향력 분석

    변수의 영향력은 (3) Coefficients 항목을 통해 확인할 수 있습니다.


Coefficients:

                            Estimate        Std. Error     t value      Pr(>|t|)    

(Intercept)       2.062e-11      4.318e+02       0.00                  1    

area                  3.360e+02     3.979e+00     84.44       <2e-16 ***

floor                 3.730e+02      3.313e+01      11.26        <2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


    Coefficients 항목은 회귀 모델을 통해 추정한 각 조건(회귀변수)들이 아파트 가격에 미치는 평균적인 영향력(회귀 계수)에 대한 정보입니다. 

    우선 (Intercept) 라는 건 area 와 floor 가 모두 0일 때의 price 평균값을 의미합니다. 실제 면적과 층수가 모두 0인 아파트는 존재할 수 없기 때문에 의미없는 값이지만, 실제 특정 조건에서의 아파트 가격을 추정하기 위해 필요한 보정치 정도로 이해하면 되겠습니다. 

    areafloor 바로 옆에 있는 Estimate 컬럼에 표시된 수치들 (3.360e + 02 와 3.730e + 02) 이 우리가 알고 싶은 변수 영향력에 대한 추정이며 이를 회귀 계수라고 부릅니다. 앞에서 언급했듯이 3.360e + 02 은 3.36 * 10^2 즉, 336 을 의미하며, 3.730e+02 는 3.73 * 10^2 = 3.73 * 100 = 373 입니다.  


    그 다음 Std.Error 컬럼은 각 추정치(Estimate)에 대한 표준 오차입니다. 표준 오차는 다소 어려운 개념인데, 간략히 말해 '(이 세상에 존재할 수 있는 모든 아파트 가격 정보를 이용해서 계산한) 실제 정확한 평균값과 내가 지금 갖고 있는 샘플 데이터를 통해 추정한 평균값이 평균적으로 얼마나 떨어져 있을지에 대한 추정치'입니다.  

    앞서 설명했듯이 회귀 계수는 우리가 아파트 가격에 대한 조건부 평균을 구하기 위해 사용하는 값이기도 하지만, 그 추정값 자체도 해당 조건이 가격에 미치는 영향력의 평균입니다. 즉, 우리는 서로 다른 조건을 가진 여러 개의 데이터들의 아파트 가격이 얼마나 차이가 나는지 비교해 보고 이를 통해 각 조건의 변화에 따른 아파트 가격의 평균적인 변화를 구하는 것이죠. 그런데 우리가 회귀 분석을 할 때 사용하는 데이터는 전체 가능한 모든 아파트 가격 정보 (이걸 모집단이라고 부릅니다) 중 일부에 불과합니다. 따라서 이 일부 샘플 데이터로 추정한 평균값은 실제 전체 모집단을 이용해서 구한 평균값과 차이가 있을 것입니다. 비록 진짜 회귀 계수가 얼마인지는 알 수 없지만 통계적으로 볼 때 우리가 추정한 값이 실제 값과 대략 얼마 정도 차이가 날지에 대해서는 추정이 가능합니다. 그리고 그게 표준 오차인 것이죠. 

    '샘플 데이터를 이용해 계산한 평균에 대한 추정치가 실제 모집단의 평균과 평균적으로 얼마나 차이가 날지에 대한 추정치' 라고 하니 굉장히 복잡해 보이는데, 암튼 여기서 중요한 건 이 표준 오차가 우리가 추정한 회귀 계수에 비해 작을수록 추정치를 신뢰할 수 있다는 점입니다. 여기서 '신뢰할 수 있다' 라는 말의 의미는 다른 샘플 데이터를 이용해서 회귀 분석을 하더라도 이번에 추정한 회귀 계수와 별 차이가 없을 가능성이 높다라는 뜻입니다. 

    위 자료에서 area 와 floor 의 회귀 계수는 각각 336, 373 인 반면 표준 오차는 각각 3.979 와 33.13 입니다. 둘 다 회귀 계수의 10% 가 채 안되는 작은 값이죠. 따라서 이 회귀 계수는 둘 다 신뢰할 수 있는 추정치입니다. 


    t value  Pr(>|t|) 는 위에서 설명한 회귀 계수와 표준 오차를 이용해서 계산한 통계량입니다. 둘 다 해당 회귀 계수가 통계적으로 유의한지 판단하기 위한 지표로 사용합니다. '통계적으로 유의하다' 라는 말도 그리 쉬운 개념은 아닙니다만 최대한 쉽게 표현하면, 다른 샘플 데이터를 이용해 회귀 분석을 했을 때 회귀 계수 값이 0으로 나올 가능성이 낮다는 뜻입니다. 

    t value회귀 계수를 표준 오차로 나눠서 구합니다. 예를 들어 위 회귀 모델 결과를 보면 area t value 는 84.44 인데 이건 회귀 계수인 336을 표준오차인 3.979로 나눈 값이죠. Pr(>|t|) 는 흔히 p-value 라고 부르는 값입니다. 회귀 계수가 0 인 모집단에서 샘플링한 데이터로 회귀 분석을 했을 때 해당 t value 와 같거나 더 극단적인 값을 갖게 될 확률입니다. 표준 오차가 회귀 계수의 절대값에 비해 상대적으로 작은 값을 가질수록 t value 값은 커지고 p-value 는 0에 가까워집니다. 

    위 회귀 분석 결과를 보면 areafloor 는 둘 다 p-value 가 <2e-16 라고 되어 있는데, 이것은 두 회귀 계수에 대한 p-value 가 0.0000000000000002 보다도 작은 값이라는 의미입니다. 따라서 두 변수는 모두 통계적으로 볼 때 유의합니다. 즉, 두 변수 모두 아파트 가격을 결정하는데 영향을 주는 조건인 것이죠.

 

    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 가 의미하는 것은 위 회귀 계수의 통계적 유의성 여부를 판단하기 위해 사용하는 표기 기준을 설명하는 자료입니다. 각 회귀 변수의 p-value 가 0 ~ 0.001 사이의 값을 가지면 그 값 옆에 *** 가 표시되고, 0.001 ~ 0.01 사이이면 **, 0.01 ~ 0.05 이면 *, 0.05 ~ 0.1 이면 . 이 붙는다는 걸 나타냅니다. 

    위 분석 결과를 보면 area와 floor 의 p-value 값 옆에 *** 가 표시되어 있는 이유는 이 표기 방식 때문에 그렇습니다. 여담이지만, 이렇게 p-value 가 통계적으로 유의할 때 * 기호를 붙이는 걸 흔히 '별을 띄운다' 라고 말합니다. 그래서 통계 분석을 많이 사용하는 분야의 연구자들 사이에서는 '모델에서 별을 보려면 하늘에 별을 봐야 한다 (즉, 밤을 새서 연구해야 한다).' 라는 농담이 있죠.


    결국 위 회귀 분석 결과를 통해 우리가 알 수 있는 area (아파트 면적) 와 floor (층수) 가 price (아파트 가격)에 미치는 영향에 대한 해석은 다음과 같습니다.

area 변수는 아파트 가격을 결정하는데 영향을 주는 변수이다. 다른 조건이 동일할 경우 아파트 면적이 1제곱미터 클수록 아파트 가격이 평균적으로 336만원 높다. 그리고 다른 샘플 데이터를 이용해서 회귀 분석을 하더라도 대략 320만원 ~ 350만원 사이로 추정될 가능성이 높다.

floor 변수는 아파트 가격을 결정하는데 영향을 주는 변수이다. 다른 조건이 동일할 경우 층수가 1층 높을수록 아파트 가격이 평균적으로 373만원 높다. 그리고 다른 샘플 데이터를 이용해서 회귀 분석을 하더라도 대략 300만원 ~ 450만원 사이로 추정될 가능성이 높다.  


마무리

    지금까지 아파트 가격에 대한 간단한 예제를 이용해 회귀 분석을 해보았습니다. 보통 회귀 분석을 하면 회귀 계수나 예측값 정도만 확인하는 경우가 많습니다만 좀 더 제대로 된 회귀 분석을 하려면 여러 가지 조건들을 확인해야하며 이렇게 해서 생성된 모델에는 다양한 정보들이 들어 있습니다. 

    선형 회귀 모델은 그 구조가 단순한 만큼 암묵적으로 가정하고 있는 조건들이 많습니다. 다시 말해, 실제로는 대단히 복잡한 데이터와 단순한 모델 사이의 간격을 다양한 가정들로 채우고 있는 것이죠. 따라서 이런 가정들이 맞지 않다면 모델은 데이터가 가진 특성을 제대로 반영하지 못합니다. 때문에 생성된 회귀 모델에 대해 이 글에서 소개한 다양한 방법을 이용해서 적합도 분석 및 유의성 검정 작업을 하는 것이죠.

    한편, 여기서 사용한 예제는 그런 가정을 충족하도록 인위적으로 만든 데이터였기 때문에 다양한 검정을 모두 통과하였지만, 실제 데이터는 그렇지 못합니다. 우리가 현실에서 접하는 데이터의 대부분은 위에서 소개한 모델 적합도 검정을 제대로 통과하지 못하거나 영향력 있는 변수들이 이렇게 쉽게 도출되지 못하죠. 때문에 분석의 목적과 목표에 따라 어느 정도의 타협이 필요합니다. 그런데 그 '어느 정도' 라는 게 모호하고 그래서 분석이 어려운 것 같습니다. 


매거진의 이전글 도메인 지식이 결여된 인과 추정이 위험한 이유
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari