brunch

You can make anything
by writing

C.S.Lewis

by 히말 Jan 12. 2021

생물, 시간, 통계,
그리고 벤포드의 '우연'

[책을 읽고] 우연의 설계 / 뉴 사이언티스트 팀

<가위바위보 이기는 법>이라는 꽤 괜찮은 책이 있다. 일본인 통계전문가가 쓴 것인데, 제목과 달리 내용은 통계가 우리 삶에 왜 중요한가 하는 얘기다. 그런데 <우연의 설계>라는 책의 한 꼭지를 쓴 마이클 브룩스는 말한다. 보를 내라고. 한 일본인의 조사에 따르면, 사람들은 바위를 조금 더 자주 낸다고 한다. 35% 정도로 바위를 낸다고 하니, 1/3보다 1.7% 정도 높다. 한 100번 가위바위보 할 일이 있으면 약간 도움이 될 것 같기는 하다.


원제가 <우연(Chance)>인 이 책은 영국의 과학잡지, <뉴 사이언티스트>에 실렸던 글을 모은 것이다. 그래서 저자가 스무 명 정도 된다. 그런 난점에도 불구하고 이 책은 꽤 체계적이다. 일단 그 첫 장, 생명의 탄생에 관한 부분을 보자.


미토콘드리아가 진핵세포와 공생하게 된 외계 세포라는 사실은 이제 정설이다. 미토콘드리아가 에너지 괸리라는 역할을 맡아주지 않았다면, 과연 다세포 생물이 가능이나 했을까? 미토콘드리아를 잡아먹은 우리의 조상 세포가 그것과 공생을 하려고 선택한 결정 자체가 대단히 기이한 '우연'이라고, 진화학자 닉 레인은 말한다. 이 선언은 대단히 중요한 함의가 있다. 우리 외에 지적인 생명체가 존재하려면, 비슷한 일이 다른 행성에서도 일어났어야 하기 때문이다.


물론 다른 방식으로도 다세포 생물과 지적 생명체가 진화할 방법은 있을 것이다. 그러나 미토콘드리아 합병과 같은 사건이 대단한 우연이라는 사실을 깨닫고 나면, 드레이크 방정식이 꽤 다르게 보이는 것도 사실이다.


우리는 무엇이 우리 몸을 이루는지 알고 있다. 그러나 우리는 그 물질들로부터 화학적으로 인간을 합성해내지는 못한다. 생명의 진정한 비밀은 하드웨어가 아니라 소프트웨어에 있기 때문이다. 카를로 로벨리가 말하는 것처럼, 우리는 원자가 아니라 원자가 배열된 '순서'다.



***


이번에는 결정론에 관해 이야기해 보자. 카오스 이론이 발견되면서 라플라스의 꿈은 와장창 깨져나간 것 같아 보이지만, 뒤집어보면 카오스 이론은 라플라스를 오히려 지지하는 쪽이다. 카오스 이론의 결론은 예측이 불가능하다 것이 아니다. 다만, 개입된 변수가 너무 많고 복잡해서 예측이 거의 불가능하다는 얘기일 뿐이다. <위대한 수학문제들>의 저자이기도 한 수학자 이언 스튜어트의 이야기를 들어보자.


이언 스튜어트는 카오스 이론에 의해 우리의 예측이 망가지는 사태를, '측정에 따라오는 정확성의 한계' 때문이라 말한다. 불확정성 원리가 상기되는 대목이다. 불확정성의 원리는 두 가지 층위를 가지고 있다. 실용적 층위와 본질적 층위다. 우리는 입자의 스탯(stat)을 관측하기 위해 뭔가를 입자에 충돌시켜야 하는데, 관찰 자체가 그 충돌에 의해 방해를 받는다. 이것이 실용적 층위다. 그러나 하이젠베르크의 불확정성은 본질적 층위 역시 가지고 있다. 입자 스탯 역시 코펜하겐 해석에 부응하기 때문이다. 다시 말해, 입자의 질량과 속도는 '원래' 불확정적이다. 이런 측면, 즉 불확정성의 본질적 층위를 생각하면, 이언 스튜어트의 단언은 다소 거북하게 느껴진다. 불확정성의 원리에 관한 많은 사람들의 잘못된 이해를 반영하는 것처럼 보이기 때문이다.


잠깐 그 문제를 접어두고, 이제 열역학 제2 법칙을 생각해보자. 열역학 제2 법칙은 '시간' 그 자체다. 그러나 이 법칙은 오직 '통계적으로만' 성립한다. 천재적인 봉고 연주자, 리처드 파인만의 '경로합'을 굳이 들먹이지 않더라도, 우리는 양자적 불확정성이 뉴턴 물리계의 확정성과 어떻게 조화를 이루는지 잘 알고 있다. 즉, 양자적 차원에서 우리 몸을 이루는 어떤 입자는 지금 당장 말머리 성운을 거쳐서 다음 순간 1미터 앞으로 돌아올지 몰라도, 그런 수많은 입자들이 모여 있는 '나'라는 거시적 개체는 그저 1미터 앞으로 직선 운동을 하게 된다. 이언 스튜어트는 이것을 다음과 같이 표현한다.


그(볼츠만)는 사실상 2가지 주장을 한 것이나 다름없다. 하나는 구체들의 운동이 카오스적이라는 것이고, 또 하나는 그 카오스가 잘 정의된 평균 상태를 만들어내는 특별한 종류라는 것이다. (237쪽)


이언 스튜어트는 양자적 존재들을 제외하고 실제에 무작위성 따위는 없다고 단언한다. 그렇게 보이는 이유는 우리의 무지 때문이라는 것이다. 비슷한 주장을 어딘가 다른 곳에서 들었다. 양자역학의 신비성은, 세계에 대한 우리의 이해가 더 진보한 다음에 사라질 것이라고. 덧셈만을 배운 아이에게 곱셈이 신기한 '마법' 같아보이는 것과 같은 원리다.


샛길로 좀 빠지자면, 페드로 도밍고스는 <마스터 알고리즘>에서 베이즈주의 예측 알고리즘의 개가를 다루고 있다. 변수가 많은 것도 문제지만, 정말 문제가 되는 것은 변수들 사이의 상관관계다. (다중회귀모형을 좀 만들어본 사람이라면 내가 무슨 얘기를 하는지 잘 알 것이다.) 그런데 나이브 베이즈 분류기는 모든 사건들이 서로 독립적이라는 황당한(이라고 쓰고 '말도 안되는'이라고 읽어야 하는) 가정을 한다. 더 황당한 것은 나이브 베이즈 분류기가 대단히 성공적이라는 것이다!


어쩌면, 이언 스튜어트가 말하는 것보다 라플라스적 예측은 가까이에 있는지도 모르겠다.


***


통계학자들은 크게 두 무리로 나뉜다. 빈도주의자와 베이즈주의자다. 다소 거칠게 말하면 객관주의자와 주관주의자라고나 할까. 이들의 차이는 페드로 도밍고스의 <마스터 알고리즘>에도 자세히 설명되어 있다. 베이즈주의자들의 목표는 어떤 확률에 대한 우리의 믿음을 조금씩 개선해 가는 것이다. 그러나 빈도주의자들은 확률에 대한 주관적 믿음 따위를 미신 취급한다.


베이즈주의는 사전 확률이라는 변수를 활용하므로, 프로그래머들의 주적 중 하나인 GIGO(쓰레기 데이터를 넣으면 쓰레기 결론이 나옴)에 취약하다. 그러나 뭔가를 넣어 뭔가를 산출한다는 사실 자체가 이들의 실용적인 강점을 보여주는 것이다. 이 책에서 이 이 문제를 다룬 레지나 누조는 이렇게 결론을 내린다. 두 가지 방법론을 조합해서 쓰는 것이 한 가지 방법론에 기대는 것보다 더 나은 결과를 보여준다고.


예컨대 원숭이의 신경세포 연구에서는 베이즈주의로 실험값을 계산해서 나온 결과를 빈도주의적 틀에서 평가했다. 더 간단한 방법은 빈도주의에 의해 얻어진 결과값을 베이즈주의적 방법에서 사전확률로 사용하는 것이다. 그러나 과연 이런 식의 '혼합'이 진정 두 방법의 융합일까? 내가 보기에 이 두 가지 사례는 모두 근본적으로 베이즈주의다. 빈도주의는 사전 또는 사후 단계에서 도구적으로 활용된 것뿐이다.


빈도주의자들은 베이즈주의자들의 사전확률을 마치 미신 취급한다. 산악왕 등애의 후손이라는 덩샤오핑의 흑묘백묘론이 떠오른다. 검은 고양이든 흰 고양이든 쥐만 잘 잡으면 된다. 그런데 마침 베이즈주의자들의 알고리즘이 쥐를 잘 잡고 있다.


***


이제는 많이 유명해진 벤포드의 법칙도 이 책에는 나온다. 벤포드의 법칙은 '보편성이 있는 숫자 출현 빈도'에서는 어디에서나 관측된다는 법칙이다. 철물점의 매출액이든 강의 배수면적이든, 데이터를 좀 모아보면 1로 시작하는 수치가 대략 30%로 가장 많고, 2로 시작하는 것이 약 18%, 다음 숫자로 시작하는 수치는 점점 비중이 감소하면서 9로 시작하는 경우는 겨우 4.6%에 불과하다는 것이다. 벤포드의 법칙은 회계사들이 장부 조작을 검증할 때 활용한다. 사람들은 모든 숫자들이 비슷한 비중으로 등장할 것이라 생각하고, 거짓 매출액을 조작할 때 모든 숫자들이 비슷하게 나오게 조작하기 마련이다.


자연에 등장하는 분포는 대개 정규분포이거나 멱급수 분포다. 그런데 이런 분포가 섞여 있는 세상에서 이런저런 자료를 샘플링하게 되면, 그 샘플의 규모가 커질 수록 샘플은 벤포드 법칙을 따르게 된다. 즉 벤포드의 법칙은 '본포의 분포', 말하자면 메타-분포를 설명하는 법칙이다.


바로 그 이유 때문에, 사기꾼들은 벤포드의 법칙을 역이용할 수 없다. 사기꾼은 전체 숫자를 조작하지 않고 일부를 조작하기 때문이다. 그 숫자들을 벤포드의 법칙에 따라 그럴 듯하게 엮어봤자, 조작된 숫자들이 되돌아간 모집합에서 벤포드의 법칙은 다시 무너지고 말 것이다.


***


이 책은 그외에도 많은 흥미로운 이야기를 담고 있다. 예컨대 괴델의 불완전성 정리는 튜링의 '정지 문제'로 더 쉽게 이해할 수 있다. 괴델의 불완전성 정리는 <아인슈타인과 괴델이 함께 걸을 때>에서 짐 홀트가 비유적으로 잘 설명해 놓았다. 그러나 이 책에서 그레고리 카이틴이 말하는 것처럼 튜링의 기계를 이용하면 훨씬 쉽게 설명이 가능하다.


벨의 부등식이 결정적으로 무너뜨린 아인슈타인의 EPR, 그리고 그 결과 이제는 양자역학의 핵심 명제 중 하나가 된 '얽힘' 이야기도 나온다. 인터넷을 좀 검색해보면 이 양자 얽힘 현상을 활용해서 초광속 통신이 가능하다는 별의별 주장이 다 나온다. 그러나 어떻게 그럴 수 있단 말인가? 우리는 얽힌 두 입자 중 하나를 다만 관측할 뿐이다. 어떤 정보를 '세팅'할 수는 없다. 마크 뷰캐넌은 이 책에서 이렇게 말한다.


당신이 전화기에 대고 "안녕, 나야."라고 말하면 상대편 전화기에서는 "아카빍및빱세"라고 들린다. 당신이 빛보다 빠른 속도로 메시지를 보낼 수 있는 것은 맞다. 다만 그 메시지가 도착해도 정확한 의미를 파악할 수 없을 뿐이다. (353쪽)


나는 정보를 보낼 수 있다는 점에 대해서도 반박하고 싶다. 의미를 알 수 없으니 정보가 아니라는 존재론적 이야기가 아니다. EPR에서 가정하는 쌍생성을 사용한다고 해도, 얽힌 입자를 어떻게 특정 방향으로 보낼 수 있단 말인가? 입자의 운동 방향에 영향을 주려고 하는 순간, 불확정성은 깨진다. 광속을 무색케 하는 순간 통신도 그 순간에 사라져 버린다. 뭐, 일개 아마추어가 하는 말이니까 너무 심각하게 받아들이지는 마시기를 바란다.


인공지능에 관한 글에서 아닐 아난타스와미는 페드로 도밍고스를 소환한다. 나는 이 책을 도밍고스의 <마스터 알고리즘>보다 몇 달이나 먼저 읽었기 때문에 당시 도밍고스란 이름은 내게 아무런 의미도 없었다. 이제 이 책을 다시 리뷰하며 도밍고스의 이름을 만나니 반갑기 그지없다. 이 글에서 저자는 도밍고스를 마치 전형적인 베이즈주의자 취급하고 있는데, 이는 사실과 조금 다르다. <마스터 알고리즘>에서 그가 직접 밝히는 내용에 따르면, 도밍고스의 '마스터 알고리즘'은 다섯 가지 머신러닝의 모든 요소를 아우르려 하고 있으니 말이다.

매거진의 이전글 '작은 습관'을 업글할 시간이다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari