어느 때보다 수학적 사고가 필요한 지금
수학은 알고 있다
김종성,이택호 저 | 더퀘스트 | 2024년 08월 01일
https://m.yes24.com/Goods/Detail/129147284
“수학은 알고 있다”에서 저자들은 수학이 우리 삶과 예측에서 얼마나 중요한 역할을 하는지를 다양한 예시로 설명합니다. 그들은 예측의 과정이 단순한 계산이 아니라, 인간의 사고와 인식에 깊이 뿌리박혀 있음을 강조합니다. 책을 통해 독작들은 수학은 단순한 수식이 아닌, 복잡한 문제를 풀어나가는 사고 도구임을 알 수 있습니다.
이 책은 우리가 데이터를 다룰 때 무작정 결과를 받아들이기보다는, 그 결과 뒤에 숨겨진 의미와 논리를 신중하게 검토해야 한다는 점을 일깨워 줍니다. 데이터와 통계에 기반한 올바른 판단을 내릴 수 있는 사고력을 기르고 싶은 독자들에게 일독을 권합니다.
계산을 가장 잘 해내는 것은 인간이 아니라 컴퓨터입니다. 그러나 수식과 숫자 뒤에 숨겨진 가장 중요한 요소는 바로 어떤 문제를 인식하는 우리의 사고방식 자체입니다. 인간은 상황을 즉각적으로 인식하고 판단하는 놀라운 직관력을 가지고 있지만, 때로는 직관이 논리와 이성을 배신하고 우리를 이상한 곳으로 인도하기도 합니다.
수학적 지식이 없는 상태로 컴퓨터의 계산 결과만 맹신하면, 마가린의 판매량이 이혼율에 매우 큰 영향을 끼친다는 괴상한 결론에 도달할 수도 있음을 곧 보게 될 것입니다. 이때 수학은 단순히 기호를 이용해 문제를 풀어 답을 내는 도구라기보다는, 어떤 문제와 현상을 잘 이해하고 예측하기 위해 모두에게 필요한 방법론입니다.
추천 알고리즘은 정말 ‘맞춤형 추천’을 잘 해주고 있을까요?
인공지능을 활용한 결과물을 업무에 활용해도 문제는 없을까요?
미래에는 인공지능이 정말 사람과 같은 지능을 가져서 많은 일자리가 사라지게 될까요?
아니면 새로운 일자리가 창출될까요?
만약 제품과 서비스 뒤에 숨겨진 수학적 작동 방식을 모른다면 우리는 이에 어떠한 대답도 참여도 할 수 없습니다. 이런 측면에서 수학을 아는 것은 현재 가장 중요하다고 여겨지는 담론에 참여하기 위한 입장권이기도 합니다.
이 책은 우리와 같은 평범한 사람들이 수학의 중요성을 이해하는 데 도움이 되기를 바라며 쓰였습니다. 따라서 정규교육 과정에서 배운 수학 지식을 알고 있다면 이 책을 더 쉽게 읽을 수 있겠지만 그렇지 않아도 상관이 없도록 구성했으며, 어쩔 수 없이 수식이 등장해야 하는 부분에서는 최대한 간결하고 명확하게 설명해 흥미를 잃지 않고 읽어나갈 수 있도록 노력했습니다.
이 책에서 소개한 예측의 방법과 의사결정에 사용되는 다양한 수학도구들을 막상 실제 현장에서 사용하려면 훨씬 더 다양한 지식이 필요합니다. 그러나 이 책의 가장 중요한 메시지, 수학이 세계를 이해하기 위해 사용하는 언어 중 하나이며 답을 구하는 방정식보다 더 귀중한 것은 어쩌면 수학적 사고 그 자체임을 전달하는 것에 더 비중을 두기로 했습니다. 특정 수학 도구를 완전하게 사용하는 기술은 다른 훌륭한 책들의 몫으로 남겨두려 합니다.
수박 속을 예측하다
맛있는 수박을 고르는 과정을 들여다보며 ‘예측’에 관해 이야기하려 합니다. 그런데 이 과정을 자세히 들여다보기 전에 ‘달콤함’의 정의부터 논의해야 할 것 같습니다. 달콤함의 기준은 개인마다 다를 수 있기 때문에, 이를 측정하는 객관적인 방법을 먼저 정해야 혼란을 방지할 수 있겠죠.
독일의 과학자 아돌프 브릭스Adolf Brix는 액체에 설탕 같은 물질이 섞이면 액체의 굴절률과 비중이 달라지는 원리로 당도를 측정하는 방법을 개발했습니다. 이 덕분에 당도는 ‘굴절당도계refractometer’라 불리는 도구를 이용하면 ‘브릭스brix’라 불리는 양적 수치로 손쉽게 측정됩니다. 예를 들어 설탕물에 약 3퍼센트의 설탕이 들어 있다면 그 설탕물은 3브릭스로 측정됩니다. 굴절당도계의 왼쪽에 시료를 바르고, 오른쪽에서 눈금을 맞추면 당도를 측정할 수 있습니다.
어떠한 의사결정을 내릴 때 일상적이고 주관적인 언어(달콤함)를 비교하고 분석할 수 있는 양적인 값으로 바꾸는 작업은 중요합니다. 이 중요성은 수박의 달콤함을 묻는 다음 두 질문에서 확연히 드러납니다.
질문 1. 이 수박 달아요?
질문 2. 이 수박은 브릭스가 몇이에요?
기술의 발전 덕분에 비파괴 방식으로 브릭스를 측정하는 기기도 있습니다. 하지만 이 기기를 사용해 수박의 브릭스를 측정하려 한다면, 가게 주인은 마찬가지로 장사에 방해가 된다며 당신을 내쫓을 것입니다. 그렇다면 수박의 상품성을 해치지 않으면서 어떻게 달콤한 수박만 골라낼 수 있을까요?
이때 우리는 예언자처럼 행세하기보다는 과학자처럼 행동하는 편입니다. 수박의 달콤함과 연관되어 있을 거라고 여겨지는 다른 정보들, 즉 색상, 꼭지의 모양, 촉감, 두드릴 때 나는 소리, 줄무늬의 형태 등 수박의 당도를 결정한다고 여겨지는 요소를 측정하려고 노력하기 때문입니다.
그렇기에 수박을 두드리고 눈으로 살펴보면서 독립변수를 파악하는 행위는 종속변수인 수박의 브릭스를 예측하기 위한 비파괴 검사라고 할 수 있습니다.
독립변수 | 색상, 꼭지 모양, 촉감, 소리, 줄무늬
종속변수 | 브릭스
이것이 바로 수박 하나를 고르는 데 여러분이 의식적으로 또는 무의식적으로 고려하는 사항입니다. 과일을 고르는 과정은 얼핏 보면 간단하게 이루어지는 것 같습니다. 하지만 사실 우리는 브릭스를 예측하기 위해 모든 감각기관을 동원해 측정 가능한 독립변수를 들여다보는 세심한 작업을 하는 셈이죠. 물론 이러한 방식으로 수박의 달콤함을 예측하는 것은 정확하지 않을지도 모르지만 이것이 우리가 할 수 있는 최선입니다.
예측의 배신
심지어 수학적 사고가 주식 가격 예측에 방해가 될 때도 있습니다. 탐욕, 충동 같은 인간의 심리는 정량적 데이터로 측정하기 어려우며 때로는 인간이 합리적으로 행동하지 않기 때문입니다. 이런 문제로 인해 주식 가격을 예측하는 것은 너무 어렵지만 여전히 데이터는 주가 예측의 가장 중요한 동력입니다. 데이터가 존재하지 않는다면 애초에 ‘예측’이라는 행위 자체가 불가능할 테니까요.
예측의 기본
지금까지 이야기한 바를 종합해보면 예측이란 다음과 같이 정의할 수 있습니다.
1. 수집한 데이터를 토대로 규칙을 찾아내고
2. 그 규칙이 새로운 데이터에도 적용되는지 살펴보는 과정
이를 조금 더 딱딱한 언어로 이야기해보면 ‘기존의 데이터에서 종속변수와 독립변수가 잘 대응되는 규칙을 찾고, 새로운 데이터에 그 규칙을 적용해서 어떤 결과가 나오는지 살펴보는 것’, 이것이 바로 ‘예측’의 정의입니다.
니콜라스 케이지의 수영장
우리는 흔히 ‘이것과 저것은 상관이 있다’라고 표현하기도 하고, 누군가 내 일에 사사건건 참견할 때 ‘상관하지 마’라고 말하기도 합니다.이처럼 ‘상관’은 단어의 뜻 그대로 서로 관련성이 있음을 언급할 때 사용하는 말입니다. 수학 분야에서도 이 단어의 의미는 다르지 않습니다. 어떤 A가 변할 때 B가 변하고 동시에 B가 변할 때 A가 변한다고 여겨지면 ‘A와 B가 상관성이 있다’고 말합니다.
상관성이 있는 사례는 주변에서 쉽게 확인할 수 있습니다. 일반적으로 키가 큰 사람일수록 몸무게가 많이 나가며, 반대로 몸무게가 많이 나가면 키도 큰 경향성을 보입니다. 이렇듯 어떤 현상 A와 또 다른 현상 B는 상관성을 가질 수 있습니다. 이때 A와 B가 얼마나 끈끈하게 연결되어 있는가를 측정하는 도구가 ‘상관관계분석correlation analysis’입니다. 이 분석값이 0이 나오면 두 사건은 전혀 상관이 없고, -1 또는 1에 가까워질수록 상관관계가 높다고 결론 내릴 수 있습니다. 상관관계는 무척 단순하고 어렵지 않아 보입니다. 컴퓨터를 이용하면 두 사건의 상관관계분석은 아주 편리하게 할 수 있죠.
하지만 상관관계를 따지는 작업은 컴퓨터에게만 맡겨놓기에는 위험하며 매우 주의를 기울여 분석해야 하는 영역입니다. 몇 가지 예를 들어보겠습니다. 배우 니콜라스 케이지Nicolas Cage가 영화에 출연한 횟수와 수영장에서 익사한 사람 수의 상관관계를 분석하면 0.666입니다. 익숙한 백분율로 바꿔 말하면 66.6퍼센트의 상관성이 있다고 할 수 있죠. 하지만 니콜라스 케이지의 영화 출연 횟수와 수영장의 익사율이 정말 관계가 있을까요?
또 다른 예로 마가린의 소비량과 미국 메인주 이혼율의 상관성은 99.26퍼센트에 달합니다.5) 그러나 사람들이 얼마나 마가린을 많이 먹든 이 문제는 이혼과 전혀 관계가 없습니다. 물론 배우 니콜라스 케이지가 출연하는 모든 영화가 서핑, 수영, 잠수와 같은 주제를 다뤄서 사람들이 해양 스포츠에 더욱 관심을 갖게 된다면 관계가 있다고 볼 수 있을지도 모릅니다. 마가린도 마찬가지입니다. 마가린이 극도의 비만을 일으켜 배우자의 외양과 건강을 해칠 정도의 수준이라고 가정한다면 또 다른 결론을 내릴 수도 있겠죠. 그러나 이런 상황이 아니라면 66.6퍼센트, 99.26퍼센트 같은 숫자는 아무런 호소력이 없습니다. 계산은 기계가 하더라도 판단은 결국 사람이 해야 하는 것입니다.
또한 상관성이 반드시 ‘인과성’을 수반하진 않음을 명심해야 합니다.
사람들은 어떤 일이 벌어지면 그다음에 무슨 일이 일어날지 궁금해하고, 이 과정에서 관련이 없는 두 사건일지라도 어떻게든 원인과 결과를 도출하려는 경향이 있습니다. 하지만 마가린 소비량이 늘어난 해에 이혼율 또한 높아졌다고 마가린 소비량이 이혼율의 원인이라고 확실하게 말할 수 있을까요?
반대로 이혼이 증가하면 마가린의 소비량이 늘어날까요? 이런 주장은 해당 데이터만으로는 단정 짓기 어려운 문제입니다.
A가 변화할 때 B에도 변화가 관찰되는 경향을 ‘공변성’이라고 합니다. 이러한 공변성은 인과관계와 상관관계의 주요한 조건이지만, 이것에만 주목하면 둘 사이를 혼동하게 됩니다.
인과관계가 성립하려면 공변성이라는 특징 외에도 몇 가지 추가 조건이 필요합니다.
인과관계의 조건 : 1. 공변성 2. 선후관계 3. 비허위성
인과관계가 성립하기 위한 두 번째 필요조건은 ‘선후관계’입니다. A가 변하면 B가 뒤따라 변해야 한다는 것입니다. 하지만 이러한 시간적 격차를 정확하게 추적하기 위한 데이터를 구하는 일은 상당히 어렵죠.
인과관계의 또 다른 필요조건인 ‘비허위성’에 따르면 A와 B의 변화 양상은 다른 요인으로 설명되지 않아야 합니다. 예를 들어 바닷가에서 판매하는 아이스크림의 매출이 그 주변에서 일어나는 안전사고와 높은 상관성을 가진다고 해봅시다. 그렇다면 아이스크림 판매량이 많아 안전사고가 더 자주 일어났다고 결론 내리고 아이스크림 가게를 모두 철거해야 할까요? 사실 아이스크림 매출과 안전사고는 제3의 요인인 ‘방문객 수’에 좌우되므로 매출과 발생 건수 사이에 인과관계가 없다고 보는 것이 타당합니다.
이렇듯 인간은 수많은 인지적 편향과 오류를 극복하고 올바른 길로 나아가도록 의식적으로 노력해야만 올바른 의사결정을 내릴 수 있습니다.
결측 : 데이터가 누락되었을 때
이처럼 결측치는 매우 다양한 상황에서 빈번하게 발생합니다. 오히려 분석 데이터에 결측치가 없는 경우는 특이한 상황일 정도죠. 따라서 어떤 데이터를 분석하기 전에 결측치가 발견된다면 이를 제거하거나 채우는 과정을 거쳐야 합니다.
각각의 과정에는 다음과 같은 전제가 필요합니다. 먼저 데이터가 포함하는 모든 변수의 종류와 값에 상관없이 무작위로 결측이 발생했다고 전제해 결측치를 ‘제거’하는 것을 고려해볼 수 있습니다. 이를 ‘완전 무작위 결측missing completely at random, MCAR’이라고 합니다. MCAR이 아닌데도 결측치가 있는 사례를 제거한다면 분석 결과가 왜곡되는 것을 감수해야 합니다.
반면 결측치가 발생한 데이터가 그 주변의 다른 정보와 연관되어 있다고 전제하고 어떤 숫자로 그 결측치를 ‘채울’ 수도 있습니다. 이는 ‘무작위 결측missing at random, MAR’이라 불립니다.
회귀분석의 설득력
선형회귀식을 통해 도출한 예상치는 얼마나 정확할까요? 이 질문은 매우 중요합니다. 수학도구를 이용해 선형회귀식을 만드는 이유는 미래를 예측해 불확실성을 최소화하기 위해서지만, 예측이란 행위 자체는 근본적으로 불확실성을 내재하고 있기 때문입니다. 그러므로 우리의 예측이 얼마나 잘 들어맞을지의 ‘가능성’도 확인할 필요가 있습니다.
이를 위해 단순선형회귀분석을 이용해 만든 직선이 이전의 데이터를 얼마나 잘 반영했는지를 추정하는 방법도 개발되었습니다. 일반적으로 컴퓨터는 선형회귀분석을 실행할 때 선형회귀선과 함께‘결정계수coefficient of determination’, ?²이라는 값을 제시해줍니다. 결정계수는 회귀선이 얼마나 데이터를 잘 반영했는지를 계량화한 것으로 0과 1 사이의 값을 가지며, 1에 가까울수록 선형회귀선이 데이터와 잘 일치한다고 볼 수 있습니다. 앞서 도출한 선형회귀식의 결정계수는 0.81이므로, 독립변수인 마케팅 예산은 판매량 추정에 81퍼센트만큼 도움을 준다고 생각할 수 있습니다. 즉 독립변수의 설명 능력인 셈이죠.
단순선형회귀분석을 수행할 때 흔히 저지르는 실수가 있습니다. 바로 회귀분석의 결정계수가 높게 나왔다는 사실이 독립변수와 종속변수 간의 인과성을 보장한다고 생각하는 것입니다. 그러나 단순선형회귀분석이 인과관계를 증명하기 위한 도구는 아닙니다. 실제 인과관계에 가깝게 분석모형을 구성하려면 관심 있는 독립변수 외에 종속변수에 영향을 주는 수많은 다른 독립변수도 포함해야 합니다.
직선만으로 설명되지 않는 것
미래를 예측하기 위해 데이터에 단순선형회귀분석을 무조건 적용하는 것은 잘못된 결론으로 인도할 위험성을 내포하고 있습니다. 아무리 결정계수가 높을지라도 말입니다. 사람의 성장은 20세쯤 되면 멈추지만 비교적 짧은 기간의 데이터로 분석하면 이 정보가 반영되지 않죠. 그렇다면 정확한 추세를 예측하기 위해서는 몇 년간의 데이터가 필요한 것일까요?
그것 또한 데이터를 토대로 우리의 경험에 따라 판단해야 합니다. 키 데이터는 직선 형태가 아니라 점점 성장의 폭이 줄어들다가 어느 순간에 멈추는 ‘로그log’ 곡선 형태로 표현됩니다. 따라서 키 데이터에는 직선이 아닌 곡선의 형태로 회귀선을 적용하는 것이 더 바람직합니다. 그 밖에도 학습 곡선, 행복과 소득수준의 관계 등 세상은 직선만으로는 설명하기 어려운 데이터로 가득합니다.
모든 영향력을 고려하라
다이아몬드의 가격을 단순히 무게를 이용해 추정한 선형회귀분석의 결정계수는 0.7이었지만, 다중회귀분석을 이용해 가격을 예측했을 때의 결정계수는 0.8로 약 10퍼센트포인트 상승했습니다. 이처럼 다중회귀분석은 결과에 영향을 끼치는 다수의 독립변수를 추가함으로써 예측의 정확도를 높일 수 있습니다. 종속변수에 영향을 주는 독립변수들이 무엇인지 잘 파악할 수만 있다면 말이죠.
다중회귀분석에는 예측의 정확성을 높이는 것 외에도 한 가지 목적이 더 있습니다. 바로 관심이 있는 특정한 독립변수의 영향력을 정확히 파악하는 것입니다. 다이아몬드의 단순선형회귀분석에서는 무게가 1캐럿 증가하면 약 333만 원의 가격 상승이 예측되었습니다. 반면 컷 등급, 투명도, 브랜드 인지도의 세 가지 독립변수를 추가해 다중회귀분석을 시행했을 때는 무게 1캐럿당 약 289만 원의 가격 상승이 예측되었죠. 두 분석 모두 ‘무게’라는 변수를 고려했지만 약 44만 원이라는 가격 차이가 발생한 것입니다.
여기서 한 가지 의문이 생깁니다. 만약 다이아몬드 가격에 끼치는 무게의 고유한 영향력을 파악하고 싶다면 어떤 추정치를 신뢰해야 할까요? 단순선형회귀분석의 약 333만 원일까요? 아니면 다중회귀분석의 약 289만 원일까요?
회귀분석이 강력한 분석 기법으로 평가받는 이유는 이처럼 각 독립변수가 종속변수에 끼치는 영향력의 정도를 손쉽게 평가할 수 있기 때문입니다. 또한 약간의 주의만 기울인다면 대다수의 의사결정은 회귀분석으로 수행하는 예측 수준에서 해결되는 경우가 많습니다. 그리고 엑셀과 같이 널리 보급된 사무 프로그램에서 이 분석 기법을 제공하기에 접근성도 아주 뛰어나죠.