brunch

You can make anything
by writing

C.S.Lewis

by 정찰스 Oct 14. 2024

헷갈리기 쉬운 상관관계와 인과관계

우산을 들어서 비가 오는 것 아니다

Correlation does not imply causation

"상관관계는 인과관계를 의미하지 않는다"라는 말은 데이터 분석가에게 굉장히 중요한 개념입니다. 이 둘은 혼동하기 쉽기 때문에 인과추론을 할 때 특히 주의해야 합니다.


상관관계는 두 변수 간에 어떤 관계가 있다는 것을 의미합니다. 예를 들어, 아이스크림 판매량과 익사 사고가 증가하는 사이에 상관관계있을 수 있습니다. 둘 다 여름에 증가하기 때문에 이런 관계가 나타날 수 있지만, 아이스크림을 많이 먹는 것이 익사 사고를 직접적으로 일으키는 것은 아닙니다.


반면, 인과관계는 하나의 변수가 다른 변수에 직접적인 영향을 미치는 경우입니다. 즉, 한 사건이 다른 사건의 원인이 되는 상황을 말합니다. 예를 들어, 물을 많이 마시면 소변의 양이 증가하는 것은 인과관계입니다.


상관관계는 때로 인과관계가 될 수 있지만, 인과관계가 성립하려면 까다로운 조건을 만족해야 합니다. 이러한 조건들은 다음과 같습니다:


공변성(Covariance): 우선 두 변수 사이에 상관관계가 존재해야 합니다. 즉, 하나의 변수 변화에 따라 다른 변수가 변화하는 패턴이 있어야 합니다. 예를 들어, 비타민 섭취량이 증가할 때 면역력이 증가한다는 상관관계가 관찰될 수 있습니다.


시간적 선후(Time Precedence): 원인이라고 주장하는 변수(원인 변수)가 결과 변수보다 먼저 발생해야 합니다. 예를 들어, 비타민 섭취 후 면역력이 증가해야지 면역력 증가 후에 비타민 섭취가 이루어졌다고 주장할 수 없습니다.


외부 요인의 배제(Elimination of Confounding Variables): 관찰된 관계가 제3의 변수(혼란 변수)에 의해 설명되지 않아야 합니다. 예를 들어, 비타민과 면역력의 관계를 주장할 때, 실제로는 운동 습관이나 식단 같은 다른 요인이 영향을 미칠 수 있습니다. 따라서 이들을 통제할 필요가 있습니다.


인과적 메커니즘(Causal Mechanism): 원인과 결과를 연결하는 논리적이고 실질적인 메커니즘이 존재해야 합니다. 예를 들어, 비타민이 신체의 면역 체계를 어떻게 강화시키는지에 대한 생리학적 설명이 필요합니다.


실험적 통제(Experimental Control): 실험을 통해 원인 변수만을 조작하여 결과 변화를 관찰할 수 있다면, 인과관계를 보다 확실히 주장할 수 있습니다. 이는 무작위 실험이나 통제 집단을 사용하는 연구 방법을 통해 확인할 수 있습니다.


석사 학위와 박스 오피스 수익은 높은 상관관계를 지니지만 논리적 연관성은 없다

우리는 상관관계를 인과관계로 자주 오인합니다. 이는 우리 뇌가 가설적 추론(abduction, 이하 가추법)을 사용하기 때문입니다. 가추법은 기존의 지식과 주어진 정보를 토대로 가장 가능성 높은 원인을 도출해 내는 방법입니다.


이비인후과 의사가 환자의 기침, 38도 이상의 열, 두통과 급속히 확산되는 코로나 바이러스의 추세를 보고 코로나19를 추측하는 것이 가추법의 한 예입니다. 상관관계에 있는 여러 정보들을 토대로 인과관계를 추론하여 문제를 해결하는 것이죠. 의사의 경우, 환자가 코로나에 걸린 것이 맞는지 추가적인 검사를 해보고 주변에 코로나에 걸린 사람이 없는지 물어볼 수 있습니다. 


이렇듯 가추법은 적절한 검증을 거친다면 문제를 해결하는 좋은 방법이 됩니다. 문제는 대부분의 경우 우리가 가추법으로 만든 가설을 검증하지 않고 단정 짓는 것에서 발생합니다.


"김대리 오늘따라 저기압이네. 저번에 아내랑 싸운 걸로 하소연하더니 오늘도 싸웠나 보군. 내 그럴 줄 알았지"


이 추론은 상대방의 감정 상태에 대해 가설을 세운 후 이를 충분히 검증하지 않고 단정 지은 경우입니다. 실제로 김대리가 저기압인 이유는 여러 가지가 있을 수 있기에, 한 가지 가정에만 의존해 결론을 내리는 것은 오류로 이어질 수 있습니다.


"저번에 이 차트분석 기법으로 매수했을 때 수익률이 좋았어. 이번에 확실한 시그널이 왔으니 풀매수 가보자"


이 역시 과거의 성공 경험을 바탕으로 충분한 검증 없이 성급한 결정을 내리는 예입니다. 금융 시장은 다양한 변수가 작용하기 때문에, 단순히 과거의 패턴을 근거로 같은 결과를 기대하는 것은 위험합니다.


“2,3층은 걸어서 올라가는 게 건강에 좋다고? 웃기는 소리. 그냥 전기세 아끼려고 하는 거잖아”


"계단 이용"과 "전기세 절약"이라는 두 현상 사이에 직접적인 인과관계가 있다고 단정 짓고 있으나, 실제로는 여러 요인이 복합적으로 작용할 수 있습니다. 건강증진이라는 제시된 이유를 무시한 채 자신의 편견에 따라 상황을 해석하는 것은 객관적인 판단을 저해할 수 있습니다.






가추법이 나쁜 것은 아닙니다. 기존의 정보로 새로운 정보를 만들어내는 상상력이자, 문제 상황에서 빠르게 결정을 내리기 위한 유용한 방식입니다. 뇌의 에너지 보존 측면에서도 가추법은 매우 효율적인 작동방식이며, 언제나 나름대로 결론을 만들어냅니다.


하지만 이러한 추론은 어디까지나 '가설'의 수준에 불과합니다. 검증되지 않은 가설을 그대로 받아들일 경우, 오류가 발생할 가능성이 높습니다. 더욱이, 이런 식의 사고방식은 다른 상황에서도 복잡한 문제를 지나치게 단순화하여 잘못된 결론을 내리게 할 위험이 있습니다. 


이는 일상적인 결정보다 중요한 판단을 내릴 때 특히 위험합니다. 따라서 항상 다양한 가능성을 열어두고  앞서 언급한 인과관계의 조건들을 토대로 객관적으로 상황을 평가하는 것이 중요합니다.


요즘처럼 가짜뉴스와 자극적인 정보들이 넘쳐나는 시대에는 객관적인 판단이 더욱 중요하게 다가오는 것 같습니다. 후회 없는 선택을 하시는데 이 글이 도움이 되었으면 좋겠습니다. 

작가의 이전글 1종 오류와 2종 오류의 역사
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari