상관관계와 인과관계, 어떻게 다를까?
연구나 뉴스에서 두 가지 일이 서로 관련이 있다고 할 때, 그게 정말로 '하나가 다른 하나의 원인'이라는 뜻은 아니다. 이럴 때 구분해야 할 개념이 상관관계(correlation) 와 인과관계(causation)이다. 인과관계는 하나가 다른 하나의 직접적인 원인이 되는 경우다. 예를 들어, 불을 켜면 방이 밝아진다. 불을 켠 행동이 방을 밝게 만든 원인인 셈이다. 반면에 상관관계는 두 일이 함께 일어나긴 하지만, 하나가 다른 하나의 원인이라고는 할 수 없는 경우다.
예를 들어, 초등학생들을 모아놓고 어떤 연구를 한다고 가정하자. 아이들에게 책을 읽게하고 얼마나 책을 잘읽는지 여부를 측정해보는 것이다. 결과를 보니 키가 클 수록 글을 잘읽는다는 결과가 나온다. 하지만 키가 큰 아이들이 책을 더 잘 읽는다는 연구가 있다고 해도, 키가 커서 책을 잘 읽는 건 아니다. 실제로는 나이가 많기 때문에 키도 크고 책도 잘 읽는 경우가 많을 것이다. 이처럼 숨은 요인(confounder) 때문에 두 일이 마치 관련 있는 것처럼 보일 수 있다.
가끔은 두 일이 전혀 관련 없는데도 우연히 함께 나타날 때도 있다. 미국에서는 치즈 소비량이 늘어나면 침대에서 사고로 죽는 사람도 늘어난다는 재미난 통계가 나온 적이 있다(Vigen, 2015). 물론 치즈 소비와 침대 사고 사이에 아무런 인과관계는 없다. 두 일이 함께 일어난다고 해서 하나가 다른 하나의 원인이라고 쉽게 단정하면 안 되는 이유다.
진화생물학에서도 상관관계와 인과관계를 착각하는 경우가 많다. 대표적인 예가 도구 사용이 지능을 높였다는 주장이다. 침팬지나 까마귀처럼 도구를 잘 다루는 동물들이 똑똑하다는 연구 결과를 보면, 도구 사용이 지능의 원인처럼 보이기도 한다. 하지만 실제로 도구를 잘 다루는 것과 지능은 인과관계가 아닐 수도 있다. 원래 똑똑하기 때문에 도구를 잘 쓰는 것일 수도 있고, 사회적 학습이나 환경이 더 큰 역할을 했을 수도 있다. 게다가 돌고래나 문어처럼 도구를 사용하지 않아도 지능이 높은 동물들도 존재한다. 결국 도구 사용과 지능은 함께 나타난다고 해서, 반드시 원인과 결과 관계라고 단정할 수 없다는 점을 보여준다.
브라질에서 진행된 대규모 연구(Victora et al., 2015)에 따르면, 아기 때 모유 수유를 오래 한 사람일수록 IQ가 높고, 교육 수준과 수입도 높았다. 이 연구는 모유 수유가 IQ를 높이고, 그것이 경제적 성공에도 영향을 준다고 주장한다. 하지만 여기서도 조심할 점이 있다. 부모의 학력, 가정 환경, 경제적 배경 등 숨은 요인들이 함께 작용했을 가능성이 크기 때문이다. 다른 연구(Deary et al., 2006)에서는 이런 외부 요인들이 IQ와 수입에 영향을 미쳤을 수 있다고 지적한다. 두 연구 모두, 모유 수유가 긍정적 효과를 줄 수 있다는 점에는 동의하지만, 인과관계라고 단정하기엔 신중해야 한다는 것을 보여준다.
그림 1은 모유 수유를 얼마나 오래 했는지에 따라 평균 IQ가 어떻게 달라지는지 보여준다. 출생 당시 가정의 소득 수준에 따라 그룹을 나누고, 각 그룹에서 모유 수유 기간이 길수록 IQ가 높아지는 경향이 나타났다. 하지만 여기서 주의할 점이 있다. 모유 수유와 IQ 사이에 나타나는 관계가 모유 수유 자체 때문인지, 아니면 다른 요인 때문에 그런 것처럼 보이는지 구분해야 한다. 예를 들어, 부모의 학력이나 가정의 경제적 배경 같은 것들이 영향을 줄 수 있다. 부모가 교육 수준이 높고 경제적으로 여유가 있으면, 아이에게 모유 수유를 더 오래 할 가능성도 높고, 교육 환경도 더 좋을 수 있다. 이렇게 모유 수유와 IQ 둘 다에 영향을 미치는 숨은 요인을 혼동변수(confounder) 라고 부른다. 연구에서는 이런 혼동변수들의 영향을 최대한 배제하려고, 출생 당시 가계소득 같은 요소들을 따로 나눠서 분석한 것이다.
그림 2는 모유 수유가 자라서 어른이 된 뒤 월수입에 어떤 영향을 주는지 보여준다. 여기서는 단순히 “모유 수유를 오래 하면 수입이 높아진다”는 식으로 바로 연결하지 않고, 어떤 경로로 영향을 주는지를 더 자세히 살펴본다. 연구 결과에 따르면, 모유 수유가 수입에 미치는 영향의 대부분은 IQ를 높여서 나타난다. 즉, 모유 수유 → IQ가 높아짐 → 높은 수입이라는 연결고리가 있다는 뜻이다. 이걸 매개 효과라고 부른다. 반면, IQ와 상관없이 모유 수유가 수입에 직접적으로 미치는 영향은 상대적으로 적은 편이었다. 쉽게 말해, 모유 수유가 경제적 성공에 영향을 준다고 할 때, 그 대부분은 아이의 인지 발달(지능)이 좋아져서 생긴 효과라고 볼 수 있다. 단순히 모유 수유만 했다고 수입이 올라가는 게 아니라, 중간 과정(IQ 상승) 이 중요한 역할을 한다는 점을 알려준다.
다른 사례를 알아보자. 저자 이름이 알파벳 앞쪽에 있을수록 더 많이 인용되는 현상이있다(Abramo & D’Angelo, 2017). 겉으로 보면, 이름 순서 때문에 논문이 더 가치 있어 보이는 것 같지만, 실제로는 학계에서 저자 이름을 알파벳 순으로 정렬하는 관행 때문이다. 이름이 앞에 있어서 눈에 더 띄고 인용이 많아지는 것일 뿐, 연구의 질이 뛰어나서 그런 것은 아니다. 즉, 이 경우는 인과관계가 아니라 제도적 요인에 의해 생긴 상관관계라고 보는 게 맞다.
상관관계를 인과관계로 착각하지 않으려면 몇 가지 방법이 있다. 먼저, 연구를 설계할 때 외부 요인들이 결과에 영향을 주지 않도록 신중하게 계획해야 한다. 대표적으로 무작위 대조 실험(Randomized Controlled Trials, RCT) 은 참가자를 무작위로 나눠 다른 요인의 영향을 최소화하는 방법이다. 또, 장기 추적 연구(Longitudinal Study) 를 통해 사람들을 오랜 시간 관찰하면, 어떤 일이 먼저 일어나고 그 다음에 어떤 변화가 생기는지 확인할 수 있다. 연구 결과를 발표할 때, 단순한 연관성인지, 실제로 원인과 결과 관계인지 명확히 설명하는 것도 중요하다. 추가로, 브래드포드 힐(Bradford Hill)은 상관관계가 인과관계인지 판단할 때 참고할 수 있는 아홉 가지 기준을 제시했다. 연구자는 이런 기준들을 활용해 결과를 더 신중하게 해석할 수 있다.
1965년, 역학자 브래드포드 힐(Bradford Hill)은 상관관계가 실제로 인과관계인지 판단할 때 참고할 수 있는 아홉 가지 기준을 제시했다. 예를 들어, 두 일이 관련 있어 보일 때, 그게 정말로 하나가 다른 하나의 원인인지 구별하는 데 도움이 된다. 브래드포드 힐의 기준에는 대표적으로 시간 순서(원인이 먼저 일어나는가), 강한 연관성(관계가 뚜렷한가), 일관성(다른 연구에서도 같은 결과가 나오는가), 생물학적 타당성(과학적으로 설명 가능한가) 등이 포함된다. 이 기준들은 한 가지 증거만 보고 결론을 내리지 말고, 여러 각도에서 충분히 검토해야 한다는 점을 강조한다. 특히 보건, 정책, 사회과학 연구처럼 데이터를 보고 정책을 세우거나 큰 결정을 내려야 할 때, 섣부르게 상관관계를 인과관계로 착각하지 않기 위해 꼭 필요한 사고 도구다.
상관관계와 인과관계를 구분하는 것은 단순한 학문적 문제가 아니다. 일상생활에서도 상관과 인과를 파악하는 것은 중요하고 내가 공부하고 있는 공공정책 분야에서도 이 구분이 중요했다. 데이터 뒤에 숨은 변수를 찾아내고, 관계와 원인을 혼동하지 않아야 더 나은 다. 이번 글을 쓰면서, 상관관계와 인과관계의 차이를 더 깊이 이해할 수 있었고, 앞으로도 보이는 숫자와 사실 뒤에 숨은 원인을 끊임없이 의심하고 분석하는 습관이 필요하다는 걸 다시 한 번 깨달았다.
우리가 매일 접하는 자극적인 뉴스, 가십거리, 혹은 통계 숫자 속에서도 마찬가지다. 어떤 사건과 결과가 함께 등장할 때, 그게 진짜 원인인지, 단지 겉으로 보이는 연관성인지 스스로 질문할 수 있어야 한다. 쉽게 흘러가는 정보 속에서 진짜와 가짜를 가르는 기준, 그리고 불필요한 착각에 휘둘리지 않기 위해서라도, 관계와 원인을 구별하는 눈은 필수다. 눈에 보이는 것 뒤에 숨은 구조를 의심하는 습관, 그게 더 나은 선택의 시작일지도 모른다.