우리 무슨 관계야...? 상관관계과 인과관계

진단 혹은 분석을 담당하는 모든 HR 실무자들을 위해

by 토비

많은 기업들에서는 조직 진단을 통해 구성원들의 의견을 측정한다.


진단 목적에 따라 다양한 진단들을 실시하곤 하는데, 리더십 다면진단, 조직문화 진단 혹은 조직만족/몰입/GWP (Great Work Place) 등을 대표적인 예로 들 수 있다.


진단 방식으로는 주로 설문(객관식 + 주관식)을 통해 데이터들을 취합,

전문업체 혹은 자체적인 분석을 통해 결과를 도출하고 인사이트를 발굴해 낸다.

(비단 진단 데이터가 아니더라도 People Analytics의 소재는 무궁무진하다.)



사실 통계분석이라고 하는 영역이 동일한 결과 값을 두고도 담당자 혹은 연구자의 의도와 목적에 따라 해석이 어느 정도 달라질 수는 있지만 그런 부분은 차치하더라도 내가 진행하는 분석의 목적과 특성은 정확하게 알고 접근해야 한다.



많은 이들이 헷갈려하는 지점 중 하나가 '상관분석'과 '회귀분석'에 대한 해석. 즉 상관관계(Correlation)와 인과관계(Causation)에 대한 해석이다.

변수 간 '관계'를 설명하는 상관분석과 회귀분석은 연구에서도 그리고 실무에서도 상당히 많이 쓰이는 분석 방법 중 하나이다.



* 아래 내용이 따분하신 분들은 맨 마지막 문단만 보셔도 된다.





✅ 상관분석


우선 상관분석부터 살펴보자.


x와 y라는 두 변수가 있다고 가정할 때, 상관분석에서는 x와 y를 '독립(원인) 변수'와 '종속(결과) 변수'의 선, 후행 개념이 아닌, 단순 변수 간 선형 관계의 '강도'를 측정하는데 목적이 있다. 다시 말해서 어떤 변수가 증가, 감소할 때 다른 변수도 함께 증가 혹은 감소하는지를 확인한다.

* 아래 산점도 참조


-1 ~ 1의 범위 내에서 상관계수가 양수면 양(+)의 상관관계를, 음수면 음(-)의 상관관계를, 0이면 관계가 없다 혹은 선형관계가 존재하지 않는다고 해석한다.

* 상관계수는 선형 (Linear) 상관을 측정함


사회과학 분야에서의 상관분석은 p-value가 유의하다는 가정 하에 0은 나오기는 힘들다. (크든 작든 상관계수 값이 나온다는 의미이다.)

우리가 설정한 두 변수 간 관계뿐만 아니라 세상에는 우리가 고려하지 못한 너무나도 다양하고 많은 변수들이 복잡하게 얽혀 있기 때문이다.


위키백과 상관분석 이미지 자료 재가공



예를 들어, 일일 흡연 양과 폐암 발병률 간 양의 상관관계가 있다고 가정하자.

일일 흡연 양이 증가하면, 폐암 발병률도 증가한다고 해석하기에는 너무나도 많은 외생 변수들이 있다.

인종, 성별, 연령, 질병 가족력, 거주지 혹은 근무지의 대기오염도 등등..


다른 예로 개인 소득과 보유 주식 수 간 양의 상관관계가 있다고 가정하자.

개인 소득이 올라갈수록 주식을 많이 사게 되지만, 반대로 보유 주식 수 증가에 따른 배당 등을 통해 개인 소득이 증가할 수도 있다. 따라서 두 변수 간 상관관계를 통해 인과관계를 단정 지을 수는 없다.



요약하자면,


상관분석은 두 변수가 (+, -) 어떤 관계에 있는지 파악은 할 수 있으나, 이것이 두 변수 간 선행과 후행이 있는 인과관계가 있다고 보기에는 어렵다.

어떤 변수가 원인이고 어떤 변수가 결과인지 명확하지 않을 뿐 아니라, 원인과 결과는 시간의 흐름에 따라 바뀌기도 혹은 두 변수가 동시에 원인이면서 결과일 수도 있기 때문이다.


즉, 상관분석을 통해 우리는 인과관계가 아닌 두 변수 간 관련성의 유무, 상관관계의 방향성과 강도 (양과 음)에 대한 정보만을 얻을 수 있다.

.

.

.

그렇다면 인과관계는 회귀분석에서...?





✅ (선형) 회귀분석


두 변수 간 상관관계를 측정하면 독립변수와 종속변수 간 관계를 빠르게 판단할 수 있다. 이는 예측 변수가 많은 회귀 모델을 정의할 때 더욱 중요해진다.


우리가 말하는 일반적인 회귀분석은 독립변수와 종속변수 간 함수 관계를 기술하는 선형 회귀분석을 의미한다. 즉 회귀분석은 회귀식을 사용하여 독립변수 값이 주어질 때, 종속변수의 값을 추정, 예측하는 데 사용되는 분석 방법이다.


출처 : 위키백과 '회귀분석'


회귀모형, 회귀계수가 통계적으로 유의하다는 가정 하에 우리는 1을 기준으로 결정계수(R²) (혹은 수정된 결정계수) 값을 통해 모형의 설명력을 확인한다.


예를 들어 결정계수가 0.87일 경우, 우리는 87%의 설명력을 가진다고 해석한다.


모형의 설명력이 좋다는 의미는 데이터들이 회귀선에 밀접하게 분포한다는 것, 다시 말해 결정계수(설명력)가 1(100%)에 가깝다면 데이터들이 회귀선에 매우 밀접하게 분포한다는 것을 의미한다.

(결정계수=설명력 : 추세선을 따라 분포하는 데이터들의 분포가 얼마나 잘 모아져 있는가)



이는 회귀모형의 예측력이 높다는 말로도 해석할 수 있다.

(결정계수가 반드시 높아야 좋은 모델이라고 볼 수는 없지만, 여기서는 해당 내용은 생략...)




(선형) 회귀분석은 기본적으로 인과성이 아닌 상관성에 기반한 통계분석이다.


다시 말하면, 회귀모형과 회귀계수가 유의하다는 가정 하에 독립변수 x는 종속변수 y를 예측할 때 유용할 수는 있으나 이것이 곧 x가 y에 영향을 미치는 단독적이고 직접적인 원인이라고 단정 지을 수 없다는 말이다.


y가 x의 원인이 될 수도 있고 혹은 단순한 x→y의 단순한 인과관계가 아닌 복잡한 관계일 수도 있다.


다중회귀분석의 경우, 독립변수들 간 다중공선성 이슈를 해결할 통계적 방법들도 있고, 또 회귀분석에 기반한 경로분석이나 구조방정식 모형(SEM)으로 인과관계를 증명할 수 있지만,


사실 이조차 연구설계 내에서 경로 상 인과관계를 의미하지, 실제 현실의 인과관계로 일반화하기는 어렵다.



인과관계를 논하기 위해서는 다음 세 가지 요건이 충족되어야 한다.


1) 시간적 선행성 (Temporal Precedence)

독립변수(원인)가 종속변수(결과) 보다 선행된다는 것이 논리적으로 확실해야 함


2) 공변성 (Covariation)

변수(원인-결과) 간 관측 가능한 관계에 있고, 원인의 변화에 따라 결과도 일관되게 변화해야 함


3) 비-허위성 (Non-spuriousness)

독립변수와 종속변수 간 관계에 조금이라도 영향을 미칠 수 있는 교란변수(Confounder)들을 통제해야 함



인과추론, AI 분야의 구루 Judea Pearl은 "상관은 인과가 아니다(Correlation is not causation)."라는 말과 함께, 상관계수나 단순 회귀분석으로는 인과관계를 설명할 수 없으며 인과적 구조와 가정을 명시적으로 모델링해야 한다고 설명한다.


Pearl은 인과추론을 하려면 3단계의 엄격한 과정이 필요한데, 회귀분석은 이 중 1단계 수준에 불과하다고 설명한다.


3 Levels of Casual Inference (Pearl, 2009)


결국, 회귀분석을 통한 변수 간 관계를 해석할 때는 ‘인과관계가 있을 것으로 추정해 볼 수 있겠다.’ 정도가 적절한 해석으로 볼 수 있지 않을까 싶다.







빅데이터 분석으로 샘플 규모의 스케일이 어마어마하게 방대해진 요즘, 어떤 이들은 '인과관계의 시대가 가고 상관관계의 시대가 왔다.'라고 말한다.

물론 어떤 관점에서는 맞는 말일 수도 있지만, 상관관계 이상의 인과관계를 증명하려면 '비허위성'이 반드시 입증되어야 한다.



상관분석을 통해 도출한 계수를 가지고 이 변수들은 인과성이 있어!라는 해석이나

회귀분석을 통해 도출한 결과를 가지고 이 변수들은 정말 인과성이 있어! 혹은 예측할 수 있어!라는 해석은 지양해야 한다.

조직진단 데이터를 가지고 분석한 결과에 대해 이러한 해석을 내리는 것은 자칫 복잡한 문제를 지나치게 단순화하고 결국 잘못된 결론, 잘못된 판단으로 이어질 위험성이 있다.



우리는 구성원들의 데이터를 분석하면서 의미 있는 결과를 도출하는 것을 지향하지만,

동시에 그 결과에 섣부른 인과성을 부여하는 우를 범하는 것을 지양해야 한다.




keyword