brunch

You can make anything
by writing

C.S.Lewis

by Juhn Mun Feb 05. 2022

<마스터 알고리즘> 페드로 도밍고스

#마스터알고리즘 #페드로도밍고스 #비즈니스북스


우리는 알고리즘의 세계에 살고 있습니다. 유튜브의 영상 추천, 인스타그램의 광고, 구글의 검색엔진, 테슬라의 FSD 등 무수한 알고리즘과 머신러닝의 결과물로 둘러 쌓인 세상입니다. 데이터와 머신러닝을 통한 알고리즘은 수많은 일상에 관여하고 있습니다.


하지만 이런 알고리즘은 생각보다 단순합니다. 넓은 응용범위 보다 훨씬 더 놀라운 일은 여러 분야의 일을 똑같은 알고리즘으로 처리하고 있다는 사실입니다. 적절한 데이터를 충분히 제공한다면 어떠한 기능이라도 임의적으로 가깝게 답을 낼 수 있습니다. 다만 적절한 데이터가 무한에 가까워질 수는 있으나, 수학적으로는 어는 것이든 학습할 수 있습니다. 이는 이 책의 중심 가설입니다.


‘세상의 모든 지식을 보편적 학습 알고리즘 데이터에서 얻어 낼 수 있다’. 마스터 알고리즘의 개념입니다. 아직까지 현실화된 마스터 알고리즘은 없습니다. 그러나 현재 사용되고 있는 주요 알고리즘의 논리를 살펴보고, 앞으로의 가능성을 논하고 있습니다.


주요한 알고리즘의 논리는 기호주의자의 연역역법, 연결주의자의 역전파법, 진화주의자의 유전 알고리즘, 베이즈주의자의 확률추론, 유추주의자의 서포트 백터 머신이 있습니다. 주전공자가 아니라면 100% 이해하는 건 어려울 수 있습니다. 다만 전체적인 숲을 이해하려는 목표로 독서를 하는 편이 좋을 것 같습니다.


개인적인 의견을 덧붙여 보겠습니다.


이 책을 읽으면서 웹 2.0 시대에서 웹 3.0 시대로의 변화를 생각하게 됐습니다. 웹 3.0의 지향점은 매우 이상적입니다. 데이터를 기반으로 빅테크 기업의 수혜를 웹 생태계의  모든 참여자들과 크리에이터들이 나눠야 한다는 이상향을 갖고 있습니다. 일종의 주주중심(자본시장)에서 생태계 창조자들(개발자)로 혜택을 이전해야 한다는 시대정신을 담고 있지 않나 생각합니다. 거친 말로는 웹 막시즘 또는 디지털 막시즘을 표상하는 듯합니다.


웹 3.0이 옳다 그르다를 떠나 이런 혜택을 나눠야 한다는 시대정신이 생긴 이유는 빅테크의 과실이 너무나 크기 때문일 것입니다. 무료인 줄만 알았던 데이터를 수집한 결과, 경쟁이 불가능할 정도의 탄탄한 알고리즘이 탄생했습니다. 그 결과 구글, 애플, 테슬라는 전 세계 최고의 기업으로 성장했습니다. 이는 웹 2.0 시대의 알고리즘의 너무나 강력함을 반증하는 결과입니다. 우리가 여전히 알고리즘과 웹 2.0을 무시해서는 안 되는 이유가 여기 있지 않을까요?



새로운 기술이 머신러닝만큼 널리 적용되고 판도를 바꾼다면 그것을 블랙박스로 남겨 두는 것은 현명한 일이 아니다. 불투명은 오류와 오용으로 통하는 문이다.


만약 당신이 빅 데이터와 머신러닝을 둘러싼 시끌벅적한 상황에 대해 도대체 무슨 일이 벌어지는 건지 궁금해하며 신문에 나오는 것보다 더 깊이 진행되는 뭔가가 있다고 의심한다면 당신이 맞다! 이 책은 그런 당신을 변혁으로 이끄는 안내서다.


머신러닝은 씨앗이고 데이터는 토양, 학습된 프로그램은 성장한 식물이다. 머신러닝 전문가는 농부와 같이 씨를 뿌리고 물과 비료를 주고 농작물의 건강 상태를 늘 살펴보지만 그 외에는 한발 물러나 식물 스스로 자라게 한다.


기술 동향은 항상 이리저리 왔다 갔다 한다. 머신러닝의 특이한 점은 이러한 모든 변화, 즉 기술의 대유행과 급락 속에서도 흔들리지 않고 성장을 지속한다는 점이다. 머신러닝이 처음으로 큰 성공을 거둔 곳은 1980년대 말부터 주가의 등락을 예측한 금융 분야다. 그다음으로 머신러닝이 퍼진 분야는 기업의 데이터베이스에 대한 데이터 마이닝이었다. 1990년대 중반까지 직접 마케팅과 고객 관계 관리, 신용 등급 평가, 회계 부정 적발 같은 분야에서 머신러닝이 크게 성장하기 시작했다. 그 후 개별화를 자동화하는 요구가 인터넷과 전자 상거래 분야에서 빠르게 늘어나며 이 분야에 머신러닝이 적용되었다.


머신러닝의 넓은 응용 범위보다 훨씬 더 놀랄 만한 것은 여러 분야의 일을 한 가지 똑같은 알고리즘으로 처리한다는 사실이다.


사실은 몇 가지 안 되는 알고리즘으로 머신러닝 응용 분야의 대다수를 해결한다


당신이 적절한 데이터를 충분히 제공한다면 머신러닝은 어떠한 기능이라도 임의적으로 가깝게 근사화할 수 있다. 이 말은 어떤 것이라도 학습한다는 말의 수학적 표현이다. 함정은 충분한 데이터가 무한대일 수 있다는 점이다. 앞으로 살펴보겠지만 한정된 데이터로 학습하려면 가정이 필요하고, 머신러닝은 각기 다른 가정을 하고, 이 가정들은 어떤 문제에 대해서는 좋지만 다른 문제에 대해서는 그렇지 않다.


이 책의 중심 가설이 여기에 있다. 세상의 모든 지식, 즉 과거, 현재, 미래의 모든 지식은 단 하나의 보편적 학습 알고리즘으로 데이터에서 얻어 낼 수 있다. 나는 이 머신러닝을 마스터 알고리즘 master algorithm이라 부른다. 만약 이런 알고리즘이 가능하다면, 이 알고리즘을 발명하는 일은 역사상 가장 위대한 과학의 성취가 될 것이다


어떻게 알고리즘 하나가 그렇게 많고 서로 다르고 어려운 일을 배울 수 있을까? 하지만 여러 곳에서 많은 증거가 마스터 알고리즘의 존재를 증언한다. 어떤 증거들이 있는지 살펴보자.


이와 관련되어 자주 듣는 반대 의견은 “데이터는 인간의 직관intuition을 대체할 수 없다.”라는 말이다. 사실은 그 반대가 맞는 말이다. 인간의 직관은 데이터를 대체할 수 없다. 직관은 사실을 모를 때 사용하는 것이고, 당신은 사실을 모르기 때문에 직관이 소중하다. 하지만 증거가 눈앞에 있다면 거부할 이유가 없다.


머신러닝이 아무리 좋다고 하더라도 사용할 데이터가 좋은 만큼만 머신러닝이 좋아진다는 것을 인식하여 데이터를 제어하는 것이다. 데이터를 지배하는 자가 머신러닝을 지배한다. 인생을 데이터로 만드는 것에 반응하여 통나무집으로 숨어 들어가서는 안 된다. 숲도 센서로 가득하다. 대신 당신에게 중요한 데이터를 제어할 방안을 적극적으로 찾아야만 한다.


마스터 알고리즘을 발견했을 때가 언제인지 어떻게 알 수 있을까? 그것은 하나의 머신러닝이 데이터 외에는 최소한의 입력만 받고 상황에 따라 변수만 바꾸면서 인간처럼 여러 가지 활동, 즉 영상과 문서를 모두 이해하고 생물학과 사회학 그리고 다른 여러 과학 분야에서 중요한 발견을 해낼 때다.


‘우리가 본 것에서 시작한 일반화를 보지 못한 것까지 적용하는 일을 어떻게 정당화할 수 있는가?’ 모든 머신러닝은 이 질문에 답하려는 시도라 할 수 있다.


호르헤 루이스 보르헤스Jorge Luis Borges의 소설 《기억의 천재 푸네스》Funes the Memorious에 완벽한 기억력이 지닌 젊은이가 나온다. 처음에는 완벽한 기억력이 엄청난 행운처럼 보이지만, 사실은 무시무시한 저주다. 푸네스는 과거에 본 하늘의 구름은 언제 보았던 것이든 정확한 모양을 기억할 수 있지만 오후 3시 14분에 옆에서 본 개가 3시 15분에 앞에서 본 개와 같다는 것은 이해하기 어려워한다. 그는 거울에 비친 자기 얼굴을 볼 때마다 놀란다. 푸네스는 일반화를 할 수 없다. 그에게 두 사물은 마지막 하나까지 똑같아 보일 때만 같다. 제한 사항이 없는 규칙 학습 알고리즘은 푸네스와 같아서 역시 제대로 작동할 수 없다. 학습은 중요한 부분을 기억하는 만큼 세부 항목은 잊는 것이다. 컴퓨터는 궁극적으로 특수 재능을 지닌 학습장애인이다. 컴퓨터는 힘들이지 않고 모든 것을 기억할 수 있지만 우리는 그것을 기대하는 게 아니다.


그러면 머신러닝이 당신에게 알려 주는 것을 믿어야 할지 말아야 할지 어떻게 결정할까? 간단하다. 머신러닝이 본 적 없는 데이터로 검증할 때까지 아무것도 믿지 않으면 된다. 머신러닝이 가정하는 패턴이 새로운 데이터에서도 유효하다면 그 패턴을 믿을 수 있다. 그렇지 않다면 머신러닝이 과적합을 했다고 알아차릴 수 있다.


세대에서 유전 알고리즘은 적응을 가장 잘하는 개체와 짝짓기를 시행한다. 즉 두 부모 비트 열의 임의 지점에서 교차를 실시하여 두 개의 자식 비트 열을 만든다. 점 돌연변이들을 새로운 비트 열에 적용한 후 유전 알고리즘이 가상의 세계에 풀어 놓는다. 각 비트 열은 적합성 점수를 얻고, 이러한 과정이 반복된다


진화주의자와 연결주의자는 중요한 공통점이 있다. 둘 다 자연에서 영감을 받아 학습 알고리즘을 설계한다는 것이다. 그 후부터 양쪽의 길이 갈라진다. 진화주의자는 학습 구조에 집중한다. 변수들을 최적화하여 진화된 구조를 미세 조정하는 일은 진화주의자에게 중요하지 않다. 반면 연결주의자는 연결부만 많고 손으로 만들 만한 간단한 구조를 선호하며 가중치 학습이 모든 일을 하도록 한다. 이것이 ‘선천적 요인 대 후천적 요인’의 머신러닝 판 논쟁이며 양쪽 모두 설득력 있는 논거가 있다.


불행히도 위에서 제시한 사례는 모두 당신과 머신러닝이 얼마나 적게 소통하는가를 보여 준다. 머신러닝이 당신의 일을 보고 당신에 대하여 간접적으로 배울 뿐만 아니라 당신이 머신러닝에게 전달해 주고 싶은 만큼 많이 말할 수 있어야 한다. 그것에 더하여 머신러닝이 세운 당신의 모형을 살펴보고 당신이 바라는 대로 고칠 수 있어야 한다. 머신러닝이 판단하기에 당신이 거짓말을 하거나 자신에 대한 지식이 낮다면 당신을 무시하기로 결정할 수 있지만, 그래도 머신러닝은 최소한 당신의 입력을 검토할 것이다


내가 예상하여 그려 보는 회사는 회비를 받은 대가로 여러 가지 일을 해 주는 것이다. 그 회사는 당신의 인터넷 활동을 여러 서버에서 받아 모으고 다른 사용자의 데이터와 종합하는 일을 할 때 당신의 인터넷 활동을 익명으로 처리할 것이다. 그 회사는 당신의 삶 전체 데이터를 모두 한 곳에 보관할 것이다.


20세기에는 노동자의 힘과 사업주의 힘 사이의 균형을 맞추기 위해 노동 조합이 필요했다. 21세기는 비슷한 사유로 데이터 조합이 필요하다. 회사는 개인보다 데이터를 수집하고 사용하는 힘이 훨씬 더 크다. 이런 요인 때문에 힘의 불균형이 생기고, 데이터가 더 소중할수록 데이터를 학습할 수 있는 모형은 더 좋아지고 더 유용해지며, 그래서 불균형은 더 심해진다. 데이터 조합은 조합원이 그들의 데이터를 사용하는 것에 관하여 회사와 평등한 조건에서 협상하도록 이끈다.


대결 상황은 사람 대 기계가 아니다. 기계를 이용하는 사람 대 기계를 이용하지 않는 사람의 대결이다. 데이터와 통찰력은 말과 기수이고 당신은 말을 앞질러 가는 대신 말을 타고 달린다.


머신러닝의 다섯 종족과 그들의 마스터 알고리즘, 즉 기호주의자의 역연역법, 연결주의자의 역전파법, 진화주의자의 유전 알고리즘, 베이즈주의자의 확률 추론, 유추주의자의 서포트 벡터 머신을 만났다. 그리고 당신은 광범위한 영역을 여행하고 경계 넘기를 시도하고 높은 봉우리도 올라가 보았기 때문에 자기 분야에서 매일 힘들게 고생하는 많은 머신러닝 연구원들보다도 전체 모습을 더 잘 알게 되었다. 땅 밑에서 흐르는 강처럼 머신러닝의 영토를 가로지르는 공통의 주제를 보았고, 어떻게 다섯 가지 마스터 알고리즘이 겉으로 보기에는 많이 다르지만 실제로는 다섯 가지 얼굴을 가진 단 하나의 보편적인 머신러닝 알고리즘이 된다는 것을 알았다.


매거진의 이전글 <빛의 양자컴퓨터> 후루사와 아키라
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari