brunch

매거진 뒷BooK

You can make anything
by writing

C.S.Lewis

by 강일 Jul 09. 2017

알파고와 이세돌

<바둑으로 읽는 인공지능>(감동근, 동아시아, 2016)을 읽고

1. 카스파로프

체스 챔피언이었던 카스파로프는 은퇴를 선언하기까지 228개월 중 225개월 동안 세계랭킹 1위 자리를 지켰던 사람이다.


2. 딥블루의 작동방식

딥블루는 이런 카스파로프를 상대로 2승 3무 1패로 이겼다. 딥블루는 초당 2억 개의 기물 이동을 계산할 수 있었다. 그러나 체스는 10의 123승이나 되는 경우의 수를 따져야 한다. 딥블루의 계산능력은 도움이 되지 않는다. 그래서 IBM의 프로그래머들은 체스 경기 기보를 데이터베이스화했다. 딥블루는 이 기보를 토대로 전혀 두지 않는 수를 삭제함으로써 계산해야 할 경우의 수를 파격적으로 줄였다. 카스파로프가 첫판을 이길 수 있었던 것은 한 번도 가본 적 없는 수순으로 체스를 두었기 때문에 딥블루는 처음부터 고전할 수밖에 없었다.

     

3. 왜 이세돌 9단인가?

구글이 이세돌 9단을 상대로 고른 공식적인 이유는 최근 10년 동안 이세돌 9단이 독보적인 승리를 보여주었기 때문이다. 하지만 그 속내는 조금 복잡하다. 물론 중국의 커제가 있긴 하지만, 중국에서는 구글을 막고 있었다. 무엇보다 이세돌의 기보가 커제에 비해 압도적으로 많았기 알파고를 이세돌 9단의 맞춤형으로 학습시킬 수 있었다. 또한 이세돌은 9단은 다른 기사들에 비해 초반 포석이 약하며, 상대의 심리를 잘 이용한다. 알파고는 초반 포석이 약한 이세돌을 공략하기 쉬우며, 상대의 심리를 잘 이용하는 이세돌의 약점은 알파고에게는 무용지물이기 때문이다.

  

     

4. 바둑의 경우의 수

10의 170승: 전 우주의 원자 수보다도 많다. 따라서 성능이 뛰어난 컴퓨터로 이 경우의 수를 계산한다는 것은 거의 불가능하다. 그래서 인간 지능의 작동방식을 연구하기 시작했다.

     

5. 지능의 작동방식

“시험 시간입니다”라고 말하면 그때부터 시험 시간에 맞는 태도를 보이는 우리 역시 조건반사를 보인다. 그런 점에서 조건반사 역시 지능의 한 부분이다. 이것을 더 밀고 나가면 지능이란 결국 받아들인 정보를 출력하는 일에 다름 아니다. 파블로프가 한 조건반사 실험은 간단하다. 개에게 후각적 자극을 주면 개는 반응을 보인다. 이제는 후각 대신 청각적 자극을 주고 후각과 똑같은 반응을 보이도록 연습시킨다. 그렇게 되면 개는 청각적 자극만으로도 후각적 자극을 받았을 때와 동일한 반응을 보인다. 입력(반응)에서 출력으로 나아가는 그 연속된 과정을 노드라고 부른다. 노드가 많으면 많을수록 복잡하고 어려운 문제도 풀어낼 수 있다.

     

6. 알파고의 대응방식

1) 정책망: 지도학습과 강화학습 

알파고에게는 이러한 입력노드가 19×19×48, 약 17,000개를 가지고 있다. 바둑판의 상황이 입력되면 열두 단계의 컨볼루션 신경망을 지나면서 부분별 모양의 특징들이 추출되고, 마지막 단에서 전체적으로 종합된다(99면).

알파고는 3000만 건의 착점을 학습했다. 여기에 두면 저기에 둬라. 저기에 두면 여기에 둬라 하는 예제가 3000만 개가 있는 샘이다. 그리고 알파고는 이 예제에 무작위로 설정된 가중치를 가지고 있다. 알파고는 예제 각각에서 입력값을 넣었을 때 원하는 출력값이 나오게끔 하는 가중치들을 각종 최적화 기법으로 찾는다. 즉 무작위로 설정된 가중치가 알맞은 가중치를 가질 수 있도록 조정한다. 그 다음 강화학습을 시작한다. 가중치가 0.3이었는데 이것을 0.4로 올렸을 때 어떤 결과가 나오는지를 계산해보는 것이다.

딥러닝 기법의 본질은 컴퓨터가 취약했던 고도의 인지 문제를, 컴퓨터가 강력한 힘을 발휘할 수 있는 계산 문제로 치환하는 것이다.

   

2) 가치망: 종국까지 시뮬레이션 해보고 결과를 보는 대신에 현재 장면으로부터 앞으로 몇 수만 진행시켜보고 그 상황에서 형세를 판단하는 것이다. 이 역시 인간이 바둑을 두는 식이다(102면). 이러한 가치망 덕분에 탐색 공간이 이제는 컴퓨터의 계산 능력으로 충분히 해결할 수 있는 수준으로 좁아졌다.

     

7. 직관

감동근은 “변하지 않는 바둑의 의미와 가치”에 대해 말하면서 다음과 같이 쓰고 있다.

     

    아마추어 바둑 팬들에게도 이세돌 9단의 패배는 매우 충격적이었다. 바둑은 컴퓨터가 인간을 이길 수 없는 단 하나 남은 보드 게임이라는 자부심이 깨진 것이다. 세상에서 최고인 줄 알았던 우리 아이가 실은 그렇지 않다는 것을 깨닫게 된 순간처럼. 인공지능에 대해 조금 알고 있는 팬들에게는 충격의 강도가 더했다. 그저 강력한 계산 능력에 의존해 무차별 탐색 기법으로 체스를 정복한 딥블루 때와는 차원이 다른 것이다. 경우의 수가 너무 많아 인간의 직관이 반드시 필요할 것이라고 생각해왔는데, 인공지능이 바로 그 직관을 흉내 냄으로써 바둑을 정복한 것이다.

    그런데 그 직관이라는 것은 인간 지성의 엄청난 능력이 아니라, 오히려 모든 것을 다 계산해 정확히 판단할 수 없기 때문에 어쩔 수 없이 동원해야 했던 인간 지성의 약점이었는지도 모른다. ‘풀린 게임’ 상태로 들어간 알파고라면, 또는 이세돌 9단에게 무한대의 제한시간이 허용된다면 모든 것을 계산해서 처리할 수 있을 때에도 과연 직관이 필요할까?(301~302면)

     

이 인용문에서 집중해야할 것은 마지막 직관에 대한 그의 통찰이다. 직관이란 어쩌면 어쩔 수 없이 동원해야 했던 인간 지성의 약점이다. 알파고는 이 약점을 거의 완벽히 계산해낸다. 인간은 자신이 내린 결정에 여전히 불확실성이 존재하지만 인공지능은 그 불확실성을 인간보다 현저히 줄인다. 그렇다면 인공지능과 인간의 대결에서 누가 이기겠는가. 인공지능은 지더라도 왜 졌는지를 알 수 있지만, 인간은 끝내 진 이유를 알 수 없을 것이다.

     

8. 이 책에서 새겨들어야 할 부분

1) 인공지능 연구의 목표

인공지능의 목표는 인공지능을 통해 인간을 보다 지능적으로 만드는 데 있어야 한다(303면).

     

2) 복기

복기는 ‘승자는 기쁨에 들뜨게 되고 패자는 분하고 괴롭지만 그런 감정들을 다스리고 차분한 마음으로 나를 냉정하게 되돌아보는 것’이다. 이 과정에서 인격 수양뿐만 아니라 비판적 시각이 길러진다. 이창호 9단은 “승리한 대국의 복기는 이기는 습관을 만들어주고, 패배한 대국의 복기는 이기는 준비를 만들어준다”라고 했다. 또 복기는 주로 패자가 주도하고 승자는 패자를 배려하면서 서로 보지 못했던 수를 아낌없이 나눠주며 함께 발전한다. ‘갑질’이 횡행하는 시대에 이처럼 상생 발전하는 복기라는 독특한 문화를 가진 바둑은 더욱 빛이 난다(304면).
매거진의 이전글 시에 관한 정의들
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari