brunch

우리는 왜 숫자에 속을까?

"우리는 왜 숫자에 속을까"를 읽고서..

by 신민철
image.png

프롤로그


불확실한 상황에 부닥친 인간은 두려움과 불안을 느끼기 시작하고, 확실함을 좇게 된다.
이 세상은 불확실함으로 가득 차 있고, 우리는 이것들을 확실함으로 바꿀 수 없다. 이것이 가능한 존재들은 신밖에 없다.

그렇다면, 우리가 이러한 어려운 상황 속에서 인지해야 할 것은 무엇인가?
바로 불확실성과 공존해야 한다는 점이고, 불확실성과 공존할 수 있게 해주는 사고력이 바로 통계적 사고이다.

통계적 사고를 발휘한다면, 절대적 확신에 대한 믿음을 버리고 불확실성과 공존할 수 있게 되며, 더 나아가 모든 종류의 확고한 신념과 주장을 건전하게 의심하고 사실과 분명한 정보를 기반으로 판단할 수 있을 것이다.

이 통계적 사고를 얻기 위해선 어떠한 것을 인지하고 있어야 할까? 이 질문에 대한 답이 이번 글에서 나올 내용들이 될 것이며,
책에 있는 모든 내용을 다 담을 순 없기에 주관적으로 인상 깊게 느꼈던 내용만을 추출하였다.


통계적 사고는 위험을 인식하는 기술이며, 정서적 기술이다. 또한 숫자는 객관적이나, 해석은 주관적이다.





기본원칙 1 : 세상에 확실한 것은 없다.

image.png


인간은 불확실한 상황에서 확실함을 필요로 한다. 사진은 굉장히 우스꽝스럽지만, 이 행동에서는 굉장한 고도의 인간의 통계적 사고가 발휘된다. 확실성에 대한 욕구는 나 자신과 주변 사람을 위험에 빠뜨릴 수밖에 없으나, 충분한 데이터가 있다면 불확실하더라도 바른 방향을 인식하고 올바른 결정을 내릴 수 있다. 마치 런닝맨에서 나온 이광수가 줄을 잡고 기어가, 정확한 길이 보이지 않아도 괜찮듯이 말이다.


의심의 기본은 확신이 환상에 불과하다는 것을 인식하는 데서 출발한다.
Benjamin Franklin(벤저민 프랭클린)은 세금과 죽음을 제외하고 확실한 것은 하나도 없다는 말을 남겼다.




기본원칙 5 : 기저율을 고려하여라


image.png

독일 제2 텔레비전 마르쿠스 란츠 토크쇼의 2021년 11월 10일 자 방송은 큰 파문을 일으켰다.
해당 토크쇼의 진행자는 코로나19의 백신을 맞음에도 불구하고 증가하는 감염자 수를 언급하며, 코로나19 백신 효과에 의문을 제기했고, 백신이 예측보다 덜 효과적임을 보여주는 통계를 공개했다. 해당 통계에는 감염자의 60%가 접종자라는 것과, 사망자의 43%가 접종자라는 것을 보고선 그들은 이 수치에 다들 휩쓸리며 예방접종은 아무런 효과가 없다는 쪽으로 분위기가 기울게 된 것이었다.

하지만 정말 그냥 넘어가도 됐던 것일까? 여기에는 크나큰 오류가 있다. 수치는 잘못되지 않았으나, 기저율을 고려해서 계산해야 한다는 점을 인식하지 못했다.


image.png


자세하게 살펴본다면, 접종자 91명 중 6명이 감염되었고, 미접종자 9명 중 4명이 감염되었으므로 접종자의 감염률은 6.6%에 그쳤지만
미접종자의 감염률은 44%에 도달한다. 이래도 예방 접종에 반대할 수 있을까?

또한 사망자에 대한 확률도 좀 더 스케일을 키워서 100명으로 고려하지 말고 0을 하나씩 더 붙여서 1000명에서 시작해 보자. 1000명당 910명은 접종 자고, 90명은 미접종자이다. 만약에 10명이 코로나로 사망한다면 그중 43%, 즉 약 4명은 접종자가 된다. 나머지 57%, 즉 약 6명은 미접종자다. 접종자 910명 중 4명, 미접종자 90명 중 6명이 코로나로 사망한다는 뜻이다.

요악하면, 접종자의 사망률은 0.5 % 미만인데 반해 미접종자의 사망률은 6%에 달한다. 토크쇼에서 사용한 도표는 오히려 예방 접종의 효과를 증명하는 자료가 되었어야 했지만, 통계를 이해하지 못한 결과로 예방 접종을 둘러싼 혼란과 기괴한 음모론이 생겨났을 뿐이다.


기저율은 검사 결과를 이해하는 데뿐만 아니라 일반적으로 상대 수치를 비교할 때 꼭 필요하다.



질문이 다르면 결과도 다르다


대표성을 갖는 설문 조사에도 오해의 소지가 있을 수 있다. 암시적인 질문을 통해 미리 정해진 방향으로 답변을 이끄는 설문 조사를 결과 지향 조사라고 한다. 예를 들어 이러한 질문이 있다.


독일 내 온실가스 배출의 가장 큰 원인은 석탄 발전으로 전기를 생산하는 것입니다. 석탄 화력 발전소를 어떻게 조치해야 한다고 생각하십니까?


이 설문 조사가 인식 지향 조사였더라면 훨씬 더 중립적으로 질문했을 것이고, 결과도 다르게 나왔을 것이다. 그렇다고 해서 중립적인 질문이 좋다는 것은 아니며, 때로는 중립적인 질문도 잘못된 결과를 만든다.




조깅 한 시간이 수명 7시간을 연장한다.


이러한 결과는 어떻게 나왔을까? 매주 두 시간씩 조깅을 하는 44세 실험 집단이 있다. 이들은 80세까지 156일, 즉 0.43년을 조깅에 쓸 것이다. 이 참가자들은 조깅을 하지 않는 참가자들보다 기대 수명이 평균 2.8년 더 길었다. 따라서 조깅을 약 한 시간 하면 일곱 시간 추가할 때마다 일곱 시간 더 살 수 있다는 결과 가 나온 것이다.

연구진은 조깅을 한 시간 추가할 때마다 수명이 연장된다는 사실은 연구에서 언급한 적이 없을뿐더러, 과도한 조깅은 오히려 심장병으로 인한 조기 사망의 위험을 높일 수 있다고 발표했었다.

결론을 이렇다. 언론의 기사 제목은 과학 연구에서 전혀 다루지 않은 사실에 대한 기대치를 높인다.




우리를 둘러싼 위험 요소들


환경의 질이 높아서 모든 종류의 감염병 위험이 낮아질수록 암과 심장 마비로 사망하는 사람이 많아진다. 이게 바로 특정 원인으로 인한 사망자 수가 그 원인의 위험도를 가리키는 지표가 될 수 없는 이유다. 특히 언론이 우리에게 주는 확신과 달리 높은 암 사망률은 오히려 국가의 보건의료 체계가 잘 잡혀있고 자연환경이 훼손되지 않았음을 의미한다.

2019년 독일의 모든 사망자 중 25퍼센트는 암으로 사망했다. 이와 비교했을 때 아이슬란드와 일본은 암 사망률 30퍼센트 이상을 웃돈다. 이들 국가는 기대 수명 또한 독일보다 훨씬 높다. 이런 이유로 높은 암 사망률이란 삶의 질이 높은 나라의 특징이라고 대략 이해할 수 있다.



인공지능의 기술의 가능성과 한계를 알기 위해서는


독일 정부 기관과 실무자들은 인공지능의 가능성과 한계를 오판했다. 인공지능의 가능성과 한계를 이해하는데 필요한 통계적 사고력이 부족하기 때문이다. 과대광고, 최신 기술 맹신, 기술 회의주의, 종말론적 사고에서 보호해 주는 통계적 사고 능력을 갖추기 위해서는 우선 디지털 위험 관리 능력이 필요하다. 즉, 디지털 기술의 가능성과 한계를 이해하고 디지털 세계에서 통제력을 갖기로 결심하는 능력을 의미한다.

어떠한 유형의 기술이나 무형의 개념의 대해서 가능성과 한계를 알기 위해서는 그 분야의 대한 기초적인 사고 능력과 지식이 필수적이다.



A = B라는 것은 예측이 아니다.


예측이 항상 틀리는 건 아니다. 하지만 진짜 예측은 거의 늘 틀린다. 독일의 옛 농민들이 쓰던 속담 중 "수탉이 퇴비 더미 속에서 울면 날씨가 변하거나 그대로 유지된다"라는 예측은 진짜 예측이 아니다. 이 예측은 매번 옳기 때문이다.

A면 B다라는 유형 중에서도 B 부분이 늘 사실인 유형의 예측이다. 따라서 이 예측은 늘 사실이고, 예측으로서의 가치가 없다.
진짜 예측이란 원칙상 잘못될 수도 있는 예측이며, 보통 어긋나는 경우도 많다.

모든 예측 중에서도 특히 미래에 대한 예측이 제일 어렵다. 가장 어렵고 가장 대담한 예측은 A 부분이 완전히 생략된 예측이다. 이러한 예측을 '무조건부 예측'이라고 한다. 이에 비해 조건부 예측은 조건을 뜻하는 A 부분이 있고, A가 실현되는 경우에만 예측의 유효성을 따진다.



keyword
작가의 이전글자연의 소리는 인간의 음악보다 위대한가?