수학이 할 수 있는 예측은 어디까지인가?
2020년 벽두부터 많은 사람들의 삶을 송두리째 바꿔 놓은 코로나 바이러스 팬데믹은 이제 만 1년을 훌쩍 넘어, 2021년 상반기까지 잠식해 들어가고 있다. 이러한 상황 속에서도 많은 학자들이 수학적 도구를 활용하여 전염병의 추이 분석과 예측 연구를 내놓고 있다. 팬데믹 같은 상황에서 수학이 1차적으로 하는 역할은 전염병의 전파 추이를 분석하고, 그로부터 앞으로의 상황 변화를 예측하는 것이다. 나아가 수학적 도구와 모델링은 향후 비슷한 팬데믹이 올 경우, 어떻게 이를 초기에 제어해야 하는지에 대한 중요한 단서를 주기도 한다. 이는 수학을 활용한 모델링이 해야 하는, 그리고 할 수 있는 2차적인 기능이다.
순수 수학과 대조되는 도구로서의 수학을 우리는 ‘응용 수학’이라 통칭한다. ‘응용’이라는 이름 그대로, 인접 분야인 물리학과 화학, 응용 범위가 확대된 공학과 생물학, 아예 과학기술의 경계를 벗어나 사회학, 경제학, 그리고 심지어는 스포츠나 예술에도 폭넓게 활용되는 것이 응용 수학이다. 여러 분야에 수학을 활용하는 주된 목적은 데이터 분석과 현상 설명 그리고 ‘미래 예측’을 위해서다. 예측 가능하고 측정이 확실하며 재현 테스트가 잘 되는 이공계 분야에서는 이 미래 예측이 근사하게 잘 들어맞는다. 예를 들면, 우리는 고전 물리학의 핵심인 뉴턴의 역학 모형을 활용해 투수가 던진 공이 어디에 다다를지를 정확하게 예측할 수 있다. 뉴턴 역학의 핵심은 미분방정식으로 표현되는 수학적 모형이다. 수학의 세부 분야인 미분방정식의 특징은 초기와 경계 조건을 알고 있다면, 그리고 그 방정식의 해가 하나라면, 미래에 대한 확실한 예측이 가능하다는 것이다. 투수가 공을 놓는 지점, 공의 초속과 rpm, 공기의 밀도와 온도, 공의 크기와 무게, 그리고 표면 거칠기 등의 조건을 알고 있다면, 이 공이 정확히 몇 초 후에 포수 미트의 어디쯤으로 들어갈 것인지 예측할 수 있다. 그러나 이는 순전히 야구공이 생물이 아니며 의지도 없고 욕망도 없기 때문에 가능한 일이다.
의지와 욕망이 뒤엉킨 이 세계의 다른 많은 일들은 이런 수학적 운명을 기계적으로 따라가지 않는다. 만약 그랬다면 수학자들과 물리학자들은 모두 부자가 되었을 것이다. 고전 물리학의 핵심 모형을 만든 뉴턴조차 바로 몇 주 후의 주가를 예측하지 못해 전 재산을 날리다시피 했지 않은가? 인간의 감정과 의지가 개입하는 사회적 현상, 그리고 여전히 노이즈의 영향을 많이 받는 생명 현상에서 수학적 예측이 확실해지기란 불가능에 가깝다. 정교한 예측과 분석을 위해 수학의 세부 분야인 확률론이 활용될 수 있지만, 이는 어떤 현상이 특정 상태가 될 ‘확률’만 알려 줄 수 있을 뿐이다. 1960년대 캐나다의 기상학자 로렌츠는 수학적으로 잘 정립된 유체역학 방정식을 이용하여 기후를 예측하려 했지만, 정작 그가 발견한 것은 초기 상태가 조금이라도 바뀌면 단 며칠 후의 상태에 대한 예측이 거의 불가능하다는 ‘카오스(chaos)’였다. 이른바 ‘나비 효과 (butterfly effect)’로 대표되는 바로 그 이론이다.
사회과학 분야로 넘어오면 예측은 과녁에서 더욱 멀어질 수밖에 없다. 수학적 이론에 입각한 현상 예측 모형은 대부분 사회 현상을 단순화한 것이기 때문에 필연적으로 불확실성에 노출된다. 예를 들어보자. 팬데믹의 분석에 사용하는 수학적 모형 중 가장 유명한 것은 ‘SEIR 모형’ 일 것이다. 이 모형은 인구 집단을 Susceptible (미감염 인구), Exposed (감염원 접촉 인구), Infected (감염된 인구), Recovered (회복된 인구)로 나눠서 S, E, I, R 네 변수의 상호 작용을 간단한 미분방정식 네 쌍으로 표현한다. 원래 SEIR 모형은 주로 후행적으로, 예를 들면 한번 지나간 감염병 데이터를 토대로 정책 수립과 자원 배분 전략, 혹은 다른 질병과의 비교 분석에 이용하는 것이 주된 용처다. 이 모형이 미래의 일을 예측하기에는 적합하지 않은 이유는 인구를 네 부류로 나눴다는 단순함에만 있는 것이 아니다. 현상을 단순하게 만드는 과정에는 필연적으로 파라미터가 필요한데, 파라미터의 변동이 커질수록 모형의 예측 결과는, 카오스 이론에서 보듯, 변동이 더 심해진다. 지금의 팬데믹 상황에서는 잠복기나 전파율, 사망률이나 회복 기간 같은 중요한 파라미터가 쉽게 측정되지 않는다. 완료형이 아닌 현재 진행형이기 때문이다. 결국 지금 분석한 다수의 결과물이 중요한 파라미터가 없는 예측이거나 확실치 않은 파라미터를 활용했다데 방점이 찍힌다.
방역 당국이 SEIR 모형을 이용하여 어떤 정책을 시행하려면, 모형의 예측 결과만큼이나, 추출한 파라미터 분석이 매우 중요하다. 그런데 이 파라미터들의 변동이 매일 누적된다면 정책 수립에는 혼란이 가중될 수밖에 없다. 정교한 모형을 위해서는 더 많은 파라미터를 도입할 수 있지만 이는 양날의 검이 되기도 한다. 띄엄띄엄 있는 점들을 잘 나타낼 수 있는 하나의 연속 함수로 구하는 과정을 데이터 피팅이라 한다. 파라미터가 많아질수록 주어진 데이터 피팅은 잘 된다. 하지만, 파라미터들이 서로 독립적이라면, 이들의 변동은 더하기가 아니라 곱하기로 나타나, 약간만이라도 파라미터가 변하면, 수학적 모형이 내놓는 예측은 천국과 지옥을 오갈 수 있다. 과거의 데이터에 대한 설명 정확도를 얻는 대가로 치러야 하는 것은 미래 예측에 대한 불확실성인 셈이다.
팬데믹의 예측을 예로 들면, 감염내과나 전염병 관련 전문가들의 해석과 고찰을 거치지 않은 모형은 추이 예측에 있어 오히려 해가 될 수 있다. 실제보다 환자수를 지나치게 더 적게 낙관적으로 예측하면, 언제든 전염병 환자가 다시 늘어날 수 있다. 실제보다 상황을 더 과장해 비관적으로 예측하면, 사회적 자원의 낭비와 경제적 충격 회복 기간이 더 길어질 수 있다. 수학적 예측이 전염병 추이 예측 등에 활용되려면, 주어진 파라미터 변동 범위에 따라, 예측 결과가 어떻게 변하는지를 같이 보여 주어야 하며, 데이터 통계 분석을 통해, 시간에 따른 데이터 자체의 변동과 모형 내재적인 변동을 분리하여 분석해야 한다.
모형에서 얻은 해석과 예측에도 불확실성이 따른다. 같은 결과를 얻었더라도, 해석은 결국 인간이 하는 것이므로 맥락에 따라 결과의 변동이 생기기 때문에 불확실성은 피하기 어렵다. 이렇게 다양한 층위에서 수학적 예측의 불확실성은 상존한다. 따라서 수학적 예측은 우선적으로는 다양한 층위의 불확실성을 줄임으로써 데이터 분석의 신뢰도를 높이는 것이 선행되어야 한다. 그러나 더 중요한 것은 어떤 수학적 모형에 의한 예측이든, 그 한계를 적절하게 고찰하는 것이다. 그리고 예측 결과를 올바로 해석할 수 있는 시각을 갖추는 것이다.
과학과 기술을 넘어선 분야에서 수학적 모형을 기반으로 예측을 하려면, 나무만 볼 것이 아니라, 나무들이 모인 장소, 토양, 식생, 기후 등에 대한 고려가 필요하다. 또한 나무를 개체로 보는 동시에, 숲이라는 공동체 일부로 보는 관점도 필요하다. 사회 현상을 다루기 위해 수학적 도구를 적극 활용하는 것은 지식의 진보와 현상의 이해를 위해 기본적으로는 장려되어야 한다. 하지만 예측 기능에만 너무 천착하면, 1차적 결과로 나온 숫자에만 매몰되어 더 고차원의 함의를 해석하지 못할 가능성이 높아진다. 수학적 예측이 의미를 가지려면, 예측에 활용된 방정식이나 모형의 수학적 논리, 파라미터, 데이터 처리 알고리듬과 확률적 특징에 대한 고민이 동반되어야 한다. 또한 모형과 숫자 너머의 의미를 추출할 수 있는 전문가, 사회적 함의를 평가할 수 있는 실무자와의 협력이 반드시 필요하다. 숫자가 주는 매력은 무궁무진하지만, 결국 그 숫자 속에서 자연과 사회를 발견해야 하는 것은 인간일 수밖에 없기 때문이다.