brunch

You can make anything
by writing

C.S.Lewis

by 유캔두잇 May 05. 2022

상관관계는 확률일 뿐, 허위 상관관계 파악하기

상관관계의 개념과 허위 상관관계를 파악하는 법

기사에 인용된 논문의 연구결과를 보면, 이런 3가지 단어가 많이 등장한다.

바로 '연관성' , '상관관계' , '인과관계'이다.


책 <똑똑하게 생존하기>에서는 이 3가지 요소의 정확한 정의와 헛소리로 이어지는 사고 과정을 설명한다. 이에 앞서 각 개념의 정의를 살펴보자.


책에서는 '연관성'을 다음과 같이 정의한다.


연관성이란 하나의 상태를 알면 다른 상태도 알 수 있을 때와 같이 서로 영향을 주는 특성


각 변수 간의 연관성의 강도는 스펙트럼으로 표현 가능하다.


연관성의 강도, 즉 확률적으로 표현한 개념이 상관관계라고 한다. 예컨대, 그림 1의 '선형 상관관계'가 있다.

그림1

선형 상관관계란 각 종류의 측정치인 변수를 점으로 표현할 때, 대부분의 점에 근접하는 기울어진 선을 그릴 수 있다면 '선형 상관관계'가 있다고 표현한다.


선형 상관관계는 세상에 대한 과학자들의 사고방식에 매우 중심적인 역할을 한다. 왜냐하면 변수 간 측정치의 강도를 1, 0, -1로 표현하여 각 변수의 확률 치를 직관적으로 설명해주기 때문이다. 1에 가까울수록 두 변수 간에 연관성이 높고, -1에 가까울수록 변수의 연관성이 반비례한다는 의미이며, 0의 경우 두 변수 간의 연관성이 거의 없다는 뜻이다.


그렇다면 서로 다른 변수 간 상관관계가 있다고 해서 그것이 유효한 상관관계일까?


우리는 'AB의 상관관계가 유효하다'는 명제도 비판적으로 볼 필요가 있다. 이유는 2가지다.

그림2

첫째, 우연히 어느 시점 간 변수가 동일한 방향으로 움직일 수 있기 때문이다. 그림 2는 기간별 자폐증 환자의 발생 수와 유기농 식품 판매량을 그래프로 나타낸 것이다. 겉보기에는 높은 상관관계를 가지고 있는 것처럼 보이지만, 논리적으로 맞지 않는다. 자폐증 환자 발생수와 유기농 식품 판매량과의 논리적 연관성이 없기 때문이다. 이를 '허위 상관관계'라 한다.


둘째, 상관관계를 자신에게 유리한 해석하기 때문이다. 예컨대, 책에서는 흡연자 3명 2명은 흡연 관련 질병으로 사망하지 않는다는 명제를 제시한다. 이 명제는 오류가 있다. 3분 1에 해당하는 자가 흡연 관련 질병으로 사망한다는 의미로 해석할 수 있기 때문이다.


결국 상관관계가 있다고 보이는 자료라도 우연히 일치하는 변수인지, 자신에게 유리하게 해석한 것인지 비판적으로 생각할 필요가 있다.


그렇다면 상관관계의 허위 여부를 간파하기 위한 방법은 무엇일까? 만약 누군가가 상관관계를 주장한다면, 그 주장이 헛소리 인지 여부를 파악하기 위해 어떤 부분에 주목해야 할까?


바로 '시계열을 늘려 추세를 파악하는 것'이다. 변수 간 상관관계는 일정 기간 동안의 추세는 우연히 일치할 수 있다. 하지만 긴 시계열 위에 변수를 올려놓는다면 그 논리를 쉽게 깨지기 마련이다.


확률적 개념의 상관관계, 허위 상관관계 간파하는 법을 배웠다. 어려운 개념이라고 생각하지만, 수많은 정보에서 진실과 거짓을 판별할 수 있는 이 개념은 현대인으로서 꼭 알고 있어야 할 것으로 사료된다. 궁금한 점이 있다면 책 <똑똑하게 생존하기>를 읽어보았으면 한다.

매거진의 이전글 연구 통계가 진실인지 간파하는 법
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari