brunch

You can make anything
by writing

C.S.Lewis

by 정경문 May 08. 2022

19 삼각관계보다 상관관계, 인간관계보다 인과관계

데이터 속성 과외, 이건 꼭 알아야 해요

# 01 정말 까마귀 때문에 배가 떨어진 걸까?

오비이락(烏飛梨落)


우리나라의 아주 오래된 속담에 '까마귀 날자 배 떨어진다'라는 속담이 있습니다. 까마귀가 날 때마다, 배나무에서 배가 떨어지는 광경을 목격한 농부는 이렇게 생각합니다. "분명 까마귀가 배를 떨어뜨렸어!"라고 말이죠. 배가 떨어진 원인은 까마귀라는 것이죠.

(원인) 까마귀가 날았음 → (결과) 배가 떨어졌음의 원인과 결과관계를 말합니다.

이 속담은 "원인과 결과가 명확하지 않을 때 의심에 주의하라"는 뜻이기도 합니다. 하지만 배가 떨어진 이유는 까마귀가 날아서 일수도 있고, 아닐 수도 있습니다. 우연의 일치가 반복되었을 수도 있습니다. 이 말은 옛 조상들이 인과관계와 상관관계를 지혜롭게 구분하고 있음을, 또 주의해서 구분해야 함을 일컫는 말이기도 합니다.


오비이락(烏飛梨落) : 까마귀 날자 배 떨어진다.
아무 관계없이 한 일이 우연히 다른 일과 때가 같아, 둘 사이에 무슨 관계라도 있는 것처럼 의심을 받게 되다.


우리는 데이터를 통해 현상을 파악하고 그에 대한 해결방안을 찾아내는 것을 목표로 합니다. 예를 들어 "아이 성적이 떨어졌다"는 문제를 가정해보겠습니다.


성적이 떨어진 원인을 분석하기 위해 "평균 점수는 80 → 75점으로 떨어졌다." , "그중 수학은 90 → 70 점으로 하락 점수가 제일 크다" "고난이도 문제 정답률이 50% 밖에 되지 않는다" 등의 원인을 찾을 것입니다. 결국 부모님은 "아이를 수학학원에 등록하자"라고 결론을 내릴지 모릅니다.


하지만 성적이 떨어진 주요 원인은 수학학원이 아니라 아이가 학교에서 친구 문제로 스트레스를 받고 있다거나, 게임에 빠져 있을 수 있는 진짜 원인이 따로 있다면 수학학원이 아니라 과외라고 해도 헛수고가 될 것입니다. 이렇듯 실제 성적이 떨어진 원인에 대해 해결방안을 실행해야지, 서로 상관이 있는 결괏값인 평균점수와 수학 점수를 원인으로 인식해서는 안됩니다.



# 02 상관관계란 무엇일까요?


방금 전 "서로 상관이 있는 값"이라는 표현을 드렸습니다. 이처럼 상관관계는 두 가지의 변화하는 값이 서로 연관성이 있음을 의미합니다.  예를 들어 수학 점수가 변화함에 따라서 평균점수도 변화하는데, 수학 점수가 높아질수록 평균점수가 높아지는 것을 '두 변수(변하는 수) 간에 상관이 있다."라고 말합니다.

상관관계란 상관이 있다와 상관이 없다(출처:저자)

우리가 어떠한 문제를 해결할 때, 문제의 원인에 대한 적절한 조치를 취해야지만 해결 성공률이 높아지겠죠? 그런데 이 문제의 원인은 처음에 든 예인 "까마귀 날자, 배 떨어진다"와 "수학 성적이 떨어져서 전체 성적이 떨어졌어"의 문제에서 마찬가지로 상관관계와 인과관계를 혼동해서는 안됩니다. 실제 이 문제는 다양한 사회 영역에서 일어나고 있습니다.


그렇다면 우리는 원인과 결과를 나타내는 인과관계와 상관관계를 어떻게 구분할까요?

결론적으로 말씀드리면 모든 상관관계가 모든 인과관계는 아닙니다. 상관관계는 인과관계를 포함한 더 큰 개념이라고 보시면 됩니다. 우리가 해결해야 하는 원인은 인과관계이니까, 상관관계를 가진 것들 중에 인과관계를 찾아는 방법이 필요하겠네요.

 예를 들어 다음의 관계들을 상관관계인지 인과관계인지 알아볼까요?

다음은 상관이 있는 걸까요? 원인과 결과일까요?

1. 아이스크림 판매량과 익사사고 사망자수
2. 마스크 판매량과 배달음식 매출액
3. 코로나 확진자 수 와 마스크 판매량
4. 담배값과 흡연율
5. 네이버, 인스타 스토어 광고비 → 스토어 매출증가

정답은 맨 마지막에 공개합니다.


원인과 결과를 나타낸다면 인과관계이고, 또 다른 원인이 그 둘에게 영향을 미쳤다면 이것은 단순한 상관관계일 가능성이 높습니다. 현실 문제에서는 단순히 원인이 하나인 경우는 극히 드물고, 일반적으로는 둘 이상의 원인을 함께 고려해야 합니다. 그래서 특히 해당 분야의 전문가라면 그 원인을 고려하는 것이 쉽지만, 그 분야에 대해 알지 못하는 데이터 분석가 입장에서는 데이터를 확인해 보게 됩니다.


이때 현업 전문가들과 데이터 분석가들 사이에서 아규먼트(Argument)가 생기기도 합니다. 현업 전문가 들은 이게 당연히 인과관계지 라며 주관적인 판단을 섞어 버릴 수 있고, 데이터 분석가 입장에서는 데이터로 상관관계가 선행되지 않으면 인과관계로 받아들이기 어렵기 때문입니다.

그래서 다음의 3가지 방법을 추천드립니다.



# 02 상관관계와 인과관계 구분 방법 3가지


시간 순서, 재현성, 제3원인 유무


첫째, 일이 일어난 시간 순서를 판단해보는 것입니다.


예를 들어, 어제 머리를 안 말리고 잤고, 오늘 머리에 새집이 지었다. 는 사실은 "어제"와 "오늘"이라는 분명한 시간의 순서가 존재합니다. 또 다른 예를 들어, 기온과 아이스크림 판매량 간에 상관관계가 있다고 해봅시다. 그러면 기온이 오른다.라는 원인 현상이 앞에 생기고, 아이스크림이 많이 팔린다는 결과가 뒤에 생기게 됩니다.


또 "경찰관의 수와 범죄 건수"에 대한 유명한 예가 있습니다. 미국의 도시에서 경찰관의 수와 범죄 건수와의 수 간에 상관관계가 매우 높게 나타났습니다. 상관관계가 있다는 것을 인과관계로 잘못 착각할 경우, 이렇게 결론을 내립니다.

"경찰관의 수가 많아질수록, 범죄 건수가 증가한다." 이렇게 잘못된 결론을 도출하고, 그에

따른 해결책으로  "범죄를 줄이려면 경찰 수를 줄여야 한다"는 황당한 주장을 할지도 모릅니다.

이 경우,  범죄율이 높아서 더 많은 경찰이 그 지역에 배치됐을 것이라고 추측하는 것이 타당한데 이러한 오류를 '역인과관계(Reverse causation)의 오류'라고 합니다.




둘째, 반복적으로 같은 일이 일어나는지 생각해 보는 것입니다. 


다소 잔인하지만 유명한 예로 영국의 철학자 버트런드 러셀(1872~1970)의 이야기를 소개해드릴까 합니다. 농장에 살고 있는 닭은 주인이 울타리로 들어올 때마다 모이가 떨어지는 장면을 목격했습니다. 그리고 배불리 모이를 먹을 수 있었죠. "주인이 울타리 안에 들어오면 모이가 생긴다"는 사실을 경험하게 된 닭은 주인이 오는 것과 모이 사이에는 인과관계가 있다는 결론 내립니다.


그러면서 똑똑함을 과시하며 주변 닭들을 선동합니다. "주인이 왔다! 모이를 먹자" 그래서 한 동안은 자신 현명함에 으스대며 동료들을 모아 달려갔습니다. 그런데 비극적인 결말이 기다리고 있었습니다. 주인이 울타리에 들어온 이유는 닭요리가 필요한 날이었기 때문입니다.



셋째, 다른 원인들은 변함이 없나요?


결혼하는 날 비가 오면 잘 산다


제가 결혼한 그날을 아직도 기억합니다. 바로 촉촉한 봄비가 내렸기 때문입니다. 결혼식 날 비가 오면 사실 이만저만 불편한 게 아닙니다. 신부의 드레스나 야외 이동, 손님들의 일정 등이 많이 제한되기 때문이죠.

그런데 여러 어르신들이 이렇게 말씀해주셨습니다. "결혼하는 날 비가 오면 잘 산다더라"


예를 들어, 비 오는 날 결혼한 사람들이 잘 살았다고 가정해보겠습니다. 실제 잘 산다는 용어 정의가 불분명하기 때문에 데이터로 나타내기는 어렵습니다. 그럼에도 불구하고 "비가 온다" -> "잘 산다"라는 원인과 결과를 살펴보면 다음과 같은 의식의 흐름이 존재합니다. 옛날 농경사회에서는 비가 와서 가뭄이 없다면 농작물이 풍성해졌습니다. 그 결과 농사가 잘 되었고 수확의 기쁨도 커집니다. 따라서 부부는 기쁨도 크고 경제적으로도 더 나은 생활을 했다는 추론입니다.


하지만 오늘날에는 어떨까요? 부부가 잘 살기 위한 다양한 원인들로 1. 성격, 2. 건강, 3. 경제, 4. 육아.... 수없이 많은 원인들이 있습니다. 그리고 100번째쯤에(또는 그 뒤) 수확의 기쁨이 있을지 모릅니다.

이 처럼 "결혼식 날 비"라는 데이터 하나만으로 "부부의 행복"에 대한 인과관계는 성립하지 않는다고 보게 됩니다. (단순한 예시이니 낭만은 계속 가져가셨으면 좋겠습니다. 저 또한 그럴 겁니다^^)



# 03 인류의 무기 인과관계에 대한 판단



인과+상관 = 합리적 판단


그리고 이 둘을 이해하는 데는 여전히 여러분들 분야의 전문 지식과 데이터 활용 지식 2가지가 반드시 필요하다는 점입니다. 영화 "머니 볼(Money Ball)"을 보셨나요?


메이저리그 만년 꼴찌 팀이 있습니다. 여기에 고졸 선수 출신 단장인 '빌리 빈(브래드 피트)' 그리고 예일대학교에서 경제학을 전공한 야구 문외한인 '피터'가 만납니다. 이들은 기존 선수 선발 방식과는 달리 데이터 분석 기반 방법 '머니 볼'에 따라 팀 구성하고 운영하기 시작합니다. [해당분야 전문가 + 데이터 분석가]


빌리는 직관이나 평판에 의존하지 않고 오로지 데이터만을 바탕으로 팀을 재구성합니다. 데이터 관점에서 아무도 중요하게 생각하지 않은 출루율과 장타율 등에 주목합니다. 빌리 빈은 그런 선수들을 낮은 몸값으로 데려올 수 있었고 결과적으로 좋은 성적을 거두게 됩니다. [승률과 상관관계가 값에 주목]

마지막 장면에서에서는 메이저리그가 빌리 빈의 방식으로 패러다임이 전환될 것이라고 이야기합니다. 그리고 오늘날 메이저리그를 비롯한 세계 야구계, 나아가 스포츠계의 패러다임은 데이터 관점으로 전환되었습니다.


인공지능에 맞설 인간의 무기, 인과관계


인류는 전통적으로 인과관계에 대한 생각을 중요하게 여겨 왔습니다. 그리고 이것은 우리가 직관적으로 판단하는데 유전적 또는 관습적으로 자리 잡았습니다. 먹구름을 보고 우산을 준비한다던지, 서리가 내린 것을 보고 농작물을 수확한다던지 하는 수많은 의사결정들이 그 증거입니다.


하지만 오늘날 데이터로 이뤄진 세상에서는 그 구도가 조금씩 바뀌고 있습니다. 빅데이터와 이를 이용한 인공지능은 상관관계에 기반하여 작동합니다. 다시 말하면 원인에 대한 깊이 있는 이해 없이도 상관관계를 가지고 있는 요인들만으로 원하는 결과를 예측해 낼 수 있죠.


가장 두드러진 부분은 사회가 인과성에 대한 그동안의 집착을 일부 포기하고 단순한 상관성에 만족해야 할 것이라는 점입니다. 즉 이유는 모른 채 결론만 알게 됩니다. 이것은 수천 년간 이어져온 전통적 사고를 뒤집는 일이며, 이에 따라 우리가 의사결정 방법이나 현실 이해의 부분을 다시 생각해볼 기회를 제공해 줄 수 있습니다.


그렇다고 인과관계가 의미가 없어지는 것은 아닙니다. 오히려 인간만이 할 수 있는 사고의 영역으로 자리 잡을 것입니다. 사람은 인과관계와 상관관계 모두를 이해하지만, 인공지능은 상관관계를 기반으로 결과를 예측합니다.


인공지능 모델을 만드는 지능의 꼭대기에는 사람이 있을 수 있는 이유는 바로 원인과 결과를 추론해 낼 수 있는 능력 때문입니다.

오늘은 다소 난해한 주제인 상관관계와 인과관계에 대해 알아보았습니다. 쉬운 예를 생각해내고 서술하는데 저도 시간이 좀 걸렸네요. 앞으로 더 재미있는 주제로 생각하고 글을 담아보겠습니다. 감사합니다.


1. 아이스크림 판매량과 익사사고 사망자수 : 상관관계
2. 마스크 판매량과 배달음식 매출액  : 상관관계
3. 코로나 확진자 수 와 마스크 판매량 : 인과관계
4. 담배값과 흡연율 : 인과관계(일부. 참고문헌 : 우리나라 흡연율 변화에 대한 실증분석 통계청 외)
5. 네이버, 인스타 스토어 광고비 → 스토어 매출증가 : 인과관계(일부. 참고논문 : 기업의 경영성과와 광고비간의 인과관계 분석 )
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari