brunch

You can make anything
by writing

C.S.Lewis

by 히말 Apr 22. 2021

페드로 도밍고스의
머신러닝 쇼케이스 (1)

머신러닝이란 무엇인가


[책을 읽고] 페드로 도밍고스의 <마스터 알고리즘> (1)




2020년 내가 읽은 최고의 책은 페드로 도밍고스의 <마스터 알고리즘>이었다. 머신러닝의 현재를 돌아보고, 단 하나의 마스터 알고리즘을 찾는 미션이 지금 어떻게 진행되고 있는지를 보여주는 책이다. 머신러닝이 바꿀 우리 사회의 변화에 관한 한 챕터가 덤으로 딸려 있는데, 이 챕터만으로도 AI 관련된 웬만한 책은 씹어먹는 수준이다.


책의 내용 자체가 너무 방대하거나, 아니면 그냥 내가 무식해서 정리할 내용이 방대한 경우, 독서 정리 타이밍을 놓쳐 장기간 미아가 되어 버리는 경우가 있다. 레이 커즈와일의 <마음의 탄생>이나 대니얼 데닛의 <마음의 진화>가 그런 경우였다. 이 대단한 책들이 나에게 가져다준 가르침과 즐거움을 생각하면 미안한 마음뿐이다. 그래서 <마스터 알고리즘>은 몇 차례에 걸쳐서라도 읽은 내용을 정리하고 생각해보는 시간을 마련해야겠다고 다짐했다.


앞으로 10회에 걸쳐 <마스터 알고리즘>의 대단한 세계를 정리해 보려고 한다. 오늘은 그 첫 번째, '머신러닝이란 무엇인가'라는 제목으로 제1장과 제2장을 정리한다.




1. 머신러닝이란 무엇인가


머신러닝이란 기계가 직접 학습하는 것이다. 그런 기계를 만드는 것이 머신러닝이라는 분야가 추구하는 것이다. 알고리즘으로 표현할 수 없다면 진정으로 이해한 것이 아니라는 멋진 말이 있다. 즉, 설명할 수 있어야 참으로 이해했다고 말할 수 있는 것이다.


저자에 의하면 머신러닝은 프로그래밍의 역이다. 제곱근이 제곱의 역인 것과 마찬가지다. "어떤 수를 제곱하면 16이 되는가?"라는 제곱근의 질문에 비유해본다면, 머신러닝이 던지는 질문은 바로 이것이다.


"이 결과를 출력하는 알고리즘은 무엇인가?" (38쪽)


머신러닝은 기술 수준이 낮은 농사와 흡사하다. 식물이 스스로 자랄 수 있는 환경을 만들어 주는 농사와 같이, 머신러닝은 데이터를 먹여주고 기계가 스스로 학습하도록 한다.


또 한 가지, 전통적 컴퓨터 과학과 머신러닝이 보이는 중대한 차이점을 하나 지적해야 한다. 전통적 컴퓨터 과학에서는 결정론적 사고가 최고지만, 머신러닝에는 통계적 사고가 필요하다. 예컨대 스팸을 99% 정확하게 판단하는 알고리즘은 전통적 사고 입장에서 보면 결함이 있는 것에 불과하나, 통계적 사고에서 보면 대단히 쓸모있는 도구라 할 수 있다.


당연한 얘기지만, 머신러닝 알고리즘은 그것이 대체하는 프로그래밍에 비해 놀라울 정도로 간략하다. 대부분 몇 백 줄 분량의 머신러닝 알고리즘이 수백만 줄 분량의 프로그래밍을 대체한다. 입력으로 어떠한 데이터와 가정이라도 받아들여 그것에 내포된 지식을 출력하는 알고리즘이 가능하지 않을까? 그것을 저자는 '마스터 알고리즘'이라 부른다.


마스터 알고리즘은 인류의 마지막 발명품이 될 것이다. 일단 발명되고 나면, 마스터 알고리즘은 발명할 수 있는 모든 다른 것들을 발명할 것이기 때문이다.




2. 머신러닝의 다섯 종족


머신러닝의 방법론은 크게 다섯 개의 각기 다른 영역에서 발전하고 진화 중에 있다. 그 첫 번째는 기호주의다. 연역의 역순이 학습이라고 생각하는 이들은 당연히 역연역법(inverse deduction)을 머신러닝의 방법으로 제시한다. 논리학을 기초로 하는 이들의 접근법은 어떻게 보면 머신러닝이 아닌 것 같아 보이기도 한다. 그냥 프로그래밍으로 보일 수 있는 것이다. 기호주의자에게는 데이터뿐 아니라 초기지식 또한 필요하다. AI의 제1차 전성기가 끝난 것은 전문가의 지식들을 모아 코드화하는 작업이 가진 한계 때문이라고 할 수 있다.


이에, 신경과학의 발달을 등에 업고 나타나 혜성 같이 머신러닝 계를 장악한 것이 연결주의자들이다. 뇌를 모방하라. 이것이 이들의 모토다. 이들은 역전파(backpropagation)를 통해 머신러닝을 디자인했다. 신경세포들의 연결상태를 바꾸어 출력값이 목표값과 가까워지도록 하는 것이다. 손상된 감각을 담당하던 대뇌피질의 부분이 다른 감각 기능을 맡아 일하는 것은 대뇌피질의 일원성을 지지하는 강력한 증거다. 따라서 대뇌피질을 역설계하여 강력한 학습기계를 만들 수 있다는 주장을 레이 커즈와일 등 많은 이들이 해왔다. 그러나 대뇌피질의 일원성이 참이 아니라 하더라도 연결주의가 붕괴되는 것은 아니다. 또한 인간의 뇌를 역설계하는 것만이 뇌를 흉내내는 유일한 방법인 것도 아니다. 요는, 인간 신경계의 연결망과 같은 방식을 취하기만 하면 된다.


진화주의자는 자연 선택이 최적의 학습화 전략이라 생각한다. 생명체들이 진화를 통해 생존기계로 살아남았듯이, 머신러닝은 유전자 프로그래밍을 통해 최적의 학습기계로 진화할 수 있다. 진화주의자의 마스터 알고리즘은 자연이 생명체를 짝 지우고 발달시키는 것과 마찬가지로, 교차와 조정이라는 메커니즘을 통해 머신러닝을 발달시킨다.


베이즈주의자들은 학습을 확률 추론의 한 형태라고 생각한다. 이들은 베이즈 정리를 이용하여 불확실하지만 사용할 수 있는 지식으로 바꾸려 한다. 데이터를 지식으로 바꾸는 장치가 바로 베이즈 정리인 것이다. 베이즈주의자들을 이론가로부터 실천가로 탈태시킨 것은 마이크로프로세서의 발달과 방대한 데이터의 축적이었다.


베이즈 정리가 배울 수 있는 것에 한계가 있을지 없을지 불확실하지만 우리는 아직 그 한계를 발견하지 못했다. (76쪽)


유추주의자들은 유사성을 이용한 분류에 착안했다. 관건은 유사성의 정도를 판단하는 것이다. 이들의 마스터 알고리즘은 서포트 벡터 머신(support vector machine)이며, 새로운 예측을 위해 기존 경험을 어떻게 활용할 것인가에 초점을 맞춘다.


과학은 세 단계를 거친다. 브라헤, 케플러, 그리고 뉴턴 단계다. 현재 과학의 대부분은 브라헤와 케플러의 단계에 머물러 있다. 빅데이터는 수십억 명의 브라헤를, 머신러닝은 수백만 명의 케플러를 대신할 것이다


머신러닝을 가르쳐라. 그러면 머신러닝이 당신에게 봉사할 것이다. 하지만 먼저 당신이 머신러닝을 이해해야 한다. 내가 하는 일에서 머신러닝이 할 수 있는 것이 무엇이고 할 수 없는 것은 무엇이며 내가 일을 더 잘하기 위해 머신러닝을 어떻게 이용할 수 있을까를 이해해야 한다. (94쪽)






매거진의 이전글 자율주행, 무엇이든 물어보세요 (대답한다는 보장은 없음
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari