[제3악장. idylle- 수학에서 인공지능으로]
2003년에 ‘대장금’이라고 하는 역사 드라마가 큰 히트를 쳤다. 드라마가 인기를 얻은 이유로는 당시 국민 배우 이영애의 연기도 뛰어났지만 역사에서 주목받지 않았던 의녀의 이야기와 음식이라는 소재도 한몫을 했다. 요즘 시대는 음식에 관련하여 먹방도 있고 심지어 한 개인이 얼마나 많이 먹을 수 있는지도 유튜브에서 인기를 끌고 있지만 약 20년 전에는 드라마에서 궁중 음식을 다루는 것이 꽤나 흥미로웠다.
이 드라마에서 장금이가 아주 어렸을 때는 음식을 만드는 수라간에서 허드렛일을 돕고 있었다. 수라간의 메인 셰프라고 할 수 있는 최고 상금이 하루는 생각시(궁중에서 일하는 어린 여자 나인들)를 불러 음식을 맛보게 하고는 재료를 맞추도록 퀴즈를 내고 있었다. 단맛을 설탕이라고 말하는 당시 유망주 나인과 달리 장금이는 혼자
“홍시 맛이 나옵니다.”
라고 정답을 맞혔다. 그 정답을 어떻게 맞혔는지 묻자
“홍시 맛이 나서 홍시라고 생각한 것이 온데..”
라는 명언을 대답했다. 이 어린아이의 대답은 그 당시 엄청난 유행어가 되었다. 얼마나 유행이었던지 당시 수학 과외 교사를 할 때 학생에게 “정답이 왜 이렇게 나왔어?”라는 질문을 하면
“그냥 답이 것이라 생각해서 답을 한 것이 온데 어찌 이렇게 나왔냐 하시면..”
이라고 대답하는 학생이 있었을 만큼.
그냥 재미로 넘길 수 있는 한 장면이지만 엄청난 비약을 보태고 또 보태자면.. 대장금의 대사는 수학적으로 해석할 수 있는 많은 부분들을 알려준다. 그 이유는 경험이라는 데이터를 판단의 근거로 만들 수 있는 원리가 그 안에 있기 때문이다.
수학자들은 자연에서 발견한 수많은 변화를 보면서 뭔가 확실한 이유가 있는 변화들을 수식으로 표현하기 시작했다. 그런데 자연과는 달리 우리가 살고 있는 현실에서는 수학으로 표현될 수 없는 것들이 너무나 많았다. 자연에 비해 불확실한 것 투성이었고, 주사위를 던지는 것만 하더라도 예상과 늘 빗나가는 결과가 현실에서는 드러났다.
그러나 사람에게는 '경험'과 '직감'이라는 무서운 무기가 존재한다. 뭐라고 말하기는 어렵지만 살아오면서 겪어온 경험이라는 것이 있고 그 경험을 토대로 번개처럼 번쩍이는 답을 머릿속에 떠올릴 수 있다. 장금이는 다른 어린이들과 달리 홍시 맛을 알고 있었는데, 아마 장금이의 어머니께서 설탕을 구하기 어려웠을 때 홍시를 사용해서 음식을 하셨던 것 같다. 장금이는 논리적으로 설명하기는 어려워도 자신이 기억하고 있는 맛 중에서 가장 가까운 맛을 찾았다.
불확실성은 우리가 앞에서 열심히 다루었던 수와 식, 알고리즘, 변화 등으로 설명하기 어렵다. 그러나 수학자들은 늘 불확실한 것도 차이가 있다는 점에 주목했다. 특히 특정 상황을 가정하면 일어날 정도가 일정해진다는 현상에서 이 불확실성을 수치화할 수 있을 것이라는 희망을 가졌다. 약 200년 전 수학자 베르누이는 항아리 속에 흰색 조약돌 3000개와 검은색 조약돌 2000개를 숨겨놓았다. (실제가 아닌 가정이다) 그리고 이 사실을 모르는 사람에게 조약돌을 하나씩 꺼내면서 그 결과를 살펴보면 약 3:2의 비율로 흰색과 검은색의 조약돌이 있지 않을까 연구하기 시작했다. 이 연구를 시작으로 수학에서 ‘얼마나 일어날 것 같을까?’를 수치화할 수 있는 확률이 체계를 잡기 시작했다.
예를 들어 “오늘 잘하면 비가 올 것 같은데요?”라고 말하면 뭔가 이상하다. 우리가 아는 인공지능은 매우 수학적으로 생각하고 그에 근거해 명확한 답변을 우리에게 돌려준다. 그런데 수많은 데이터를 통해 인공지능은 답변을 어떻게 만들어낼까?
먼저 수학 식에 근거하여 값을 산출하는 경우가 있을 수 있다. 계속 예를 들어왔던 자동차의 예를 들어보자. 새 자동차가 2000만원이고, 1년 된 중고차가 1800만원, 2년 된 중고차가 1600만원.. 1년이 지날 때마다 200만원씩 줄어든다면 자동차의 가격은 수식으로 표현이 된다. 간혹 차의 상태에 따라 값이 좀 오르거나 내릴 수도 있지만 기준은 수식으로 정할 수 있다.
만약 수식으로 표현될 수 없는 불확실성에 놓였을 때 인간은 주로 경험을 의지한다. 인공지능의 한 종류인 머신러닝은 경험이 아닌 데이터를 활용한다. 기존의 데이터를 기준으로 새로 입력된 데이터를 살펴보고 가장 비슷한 결론을 이끌어낸다. 즉 ‘지금의 입력값에 대해 예상 가능한 결론은 이러이러한 것들이 있다. 이 중 어떤 결론이 일어날 확률이 높은가?’라는 질문의 답을 찾아낸다. 알파고가 바둑을 둘 때 여기에 두면 승률이 몇 %, 저곳에 두면 승률이 몇 % 등으로 예측한 후 가장 승률이 높은 곳에 착수하는 것과 비슷하다.
확률은 뭔가를 걸러내는 도구로도 훌륭히 활약한다. 하루는 둘째 아들이 유치원을 다녀온 후 흥분하며
“아빠! 새로 온 친구는 키가 200나 된대!"
라는 말을 했다.(유치원생의 이야기이므로 키의 단위가 없다는 것은 너그럽게 이해하자.) 실제 유치원생의 키가 200cm일 가능성은 전 인류의 역사를 통틀어 살피더라도 0에 가깝다. 아마 102를 200으로 잘못 알아들었을 가능성이 훨씬 더 크다. 데이터를 입력받을 때는 잘못된 입력값을 걸러내는 것이 좋다. 주어진 자료가 데이터에 속할 확률이 희박하면 입력 오류로 파악할 수 있는데 이 판단 근거가 확률이다.
확률은 인공지능의 지도 학습 방법 중의 하나인 ‘분류하기’에서 맹활약하고 있다. 실제 스팸메일은 확률을 통해 걸러진다. 세일, 공짜, 놓치면 후회, 마감 임박 등과 같이 광고에 잘 사용하는 특정 단어들이 꽤 있다. 이러한 단어들이 메일의 전체 내용 중에서 몇 번이나 나오는지 잘 센 다음 확률을 통해 이 메일이 스팸인지 아닌지를 판단한다.
문제는 이렇게 훌륭한 확률을 학생들은 가장 싫어한다는 것이다. 우리가 보는 문제집 속의 확률은 늘 주머니 속에서 색깔이 있는 구슬을 꺼내고 있거나 잘 앉아보지도 않는 원탁에서 부모님 옆에 있을 확률을 구하고 있다. 열심히 풀어도 답이 존재하지 않고, 답이 있어도 정답인지 확신을 주지 않는다. 절차적인 문제 풀이에 훈련이 잘 된 학생일수록 이런 혼란은 더욱 반갑지 않다. 실제 대학 입학 면접에서
“수학 중 어떤 분야가 가장 싫은가?”
라는 질문이 떨어지기 무섭게
“확률과 통계를 싫어합니다!”
라고 대답을 했다. 그것도 확률과 통계를 전공하시는 교수님 앞에서 (당시는 몰랐다). 교수님은 애써 표정관리를 하시며
“왜 확률과 통계를 싫어하지?”
“맞춰도 맞춘 것 같지 않고, 틀려도 틀린 것 같지 않아서요. 게다가 현실과 확률은 늘 다르니까요.”
한없이 너그러웠던 교수님은 웃으시며 그 분야가 원래 그렇다며 넘기셨고 철없는 학생인 나를 다행히 수학과의 신입생으로 받아주셨다. 지금 생각하면 정말 확률을 몰라서 했던 대답이지만 현실과 확률이 늘 다르다는 대답은 여전히 살아있는 진리이다. 실제로 얼마 전 첫째가 다니는 초등학교 돌봄 서비스 추첨식이 있었다. 1~46번까지 적힌 탁구공 중에서 40번 안에 들어야 첫째가 초등학교 돌봄 서비스를 이용할 수 있는데 나는 당당히도 45번을 뽑았다. 수학적으로 당첨될 확률이 높으므로 걱정 말라고 가족들에게 큰 소리를 쳤는데, 45라는 숫자가 적힌 탁구공은 수학적 확신에 가득 찬 내 얼굴을 비웃고 있었다.
내가 처한 상황에서 늘 확률은 현실과 어긋나게 작용하는 듯 느껴진다. 그러나 만약 운동장에 나를 포함해서 모든 추첨에 참가한 학부모들을 모아놓고
“당첨되신 분 손 들어 보세요~”
라고 했다면 확률은 거의 늘 옳은 해석을 내려준다. 나만 억세게 운이 없었을 뿐, 한 발 물러나서 전체를 보면 확률은 꽤나 타당하다. 인생은 늘 희박한 확률에서 기적을 만들어내고 감동을 주지만, 인공지능은 당연히 일어날 것 같은 일을 이야기해주고 싶어 한다. 그 안에 남들이 보지 못하는 데이터와 현실을 연결하는 확률이라는 수학이 있기 때문이다.