인공지능의 바둑 제패

알파고가 이세돌을 이기다

by 노란 보석


어제 바둑 프로그램 알파고가 이세돌 9단을 상대로 한 2국에서도 불계승을 거두었다.


바둑에 문외한인 나에게는 이것이 얼마나 대단한 것인지 정확하게 알 수 없지만 이 사건이 무엇을 의미하는지는 알 것 같다.
이미 30년 전에 컴퓨터는 인간의 연산 능력을 뛰어넘었다.
현재 CAD라는 설계 툴로는 3D 모델링을 통해 배 한 척분의 방대한 그래픽 데이터와 그것이 갖는 어마어마한 속성정보를 빠르게 처리하고 있다.
또한 빅데이터 시대의 도래로 컴퓨터와 모바일 등 정보의 활용 영역과 역할이 확대되면서 그 영향이 인류사회에 엄청난 변화를 예고하고 있다.


알파고는 무엇이 다른가?


인간이 우세한 영역이라고 믿었던 바둑을 컴퓨터가 점령해 버린 것이다.
이세돌 9단은 세계 최고의 바둑 고수 중 한 사람이다.
고수들의 바둑에서는 포석이라든가 정석, 패싸움, 수 읽기, 형세 파악 등 컴퓨터가 도저히 인간을 넘어설 수 없는 그 무엇이 있다고 생각하는 것 같다.
아름답게 둔다는 표현마저 있었다. 과연 어찌 두는 것이 아름다운지 문외한인 나는 모르지만 무언가 고수들만의 영역이 있다는 것 아닐까?

그러나 알파고는 아름답지 않을지는 모르지만 두 판을 연속 불계승으로 이겼다.
바둑계는 물론 온 세계가 흥분하고 있다.
구글에서는 이를 달 착륙에 비견할만한 쾌거라고 얘기한다.
혹자는 산업혁명에 비유한다.
방송에서는 기계에게 인간이 졌다고 호들갑을 떤다.
대단한 일임에는 틀림없으나 기계가 인간을 이겼다는 표현은 지나친 것 같다.

바둑과 같이 생각하는 인간이 가진 가장 우월한 영역이 컴퓨터 프로그램에 의해 정복당했다는 생각에서 일까?
그러나 이것은 1997년도에 IBM의 딥블루가 체스 챔피언 개리 카스파로프를 꺾었을 때 예견되었던 것이 아닐까?
물론 그때 예측했던 시간보다 훨씬 빨리 그 날이 왔다는 것이 놀라울 뿐이다.

인공지능은 인간의 생각하는 형태와 비슷하게 추론기능을 중심으로 학습능력, 지각 능력, 자연언어 이해능력 등을 가진 컴퓨터 프로그램을 이야기한다.
바둑의 룰을 제약조건으로 반상에 놓인 흑과 백 돌의 상호 위치 관계를 대비하여 그다음에 발생 가능한 모든 경우의 수를 따져 보는 것이 가능하다면 완벽한 것인데 경우의 수가 무한에 가까우므로 아무리 슈퍼컴퓨터라 할지라도 주어진 시간이라는 룰 안에서는 불가능한 것이므로 다른 수단이 필요한데 그것이 딥마인드라는 바둑 인공지능 컴퓨터 프로그램이다.


딥마인드는 "몬테카를로 트리 탐색"기술과 "심층 신경망"(Deep Neural Network) 기술을 이용했다고 한다.

몬테카를로 트리 서치는 선택지 중 가장 유리한 선택을 하도록 돕는 알고리즘이다.

예를 들어 알파고가 검은 돌로 대국을 벌인다고 가정할 때, 흰 돌이 어디에 위치하느냐에 따라 검은 돌을 두는 알파고의 선택이 달라지도록 한다는 의미다. 이 같은 최적의 선택이 반복될수록 대국은 유리하게 풀린다. 구체적으로 알파고가 바둑돌을 놓을 위치를 정하는 알고리즘은 ‘정책 망(policy network)’이라는 이름이 붙여진 신경망과 ‘가치망(value network)’이라고 부르는 또 다른 신경망의 결합에 의해 이루어진다.
정책 망은 다음에 돌을 어디에 둘지 선택하는 알고리즘이고, 가치망은 승자를 예측하는 역할을 한다. 말하자면, 알파고의 바둑 대국은 머신러닝으로 훈련된 정책 망과 가치망의 결합이 몬테카를로 트리 리서치 알고리즘을 통해 발현되는 것이다.

알파고의 훈련 첫 단계는 ‘정책 망 지도 학습(Supervised learning of policy networks)’이다. 바둑기사가 그러하듯 바둑돌의 다음 위치를 예측하도록 훈련하는 과정이다.

딥마인드는 총 13개의 레이어로 구성된 정책 망을 디자인하고, 바둑 서버에 등록된 3천만 개의 바둑돌 위치 정보를 바탕으로 훈련시켰다.

알파고 훈련의 두 번째 단계는 ‘정책 망 강화 학습(Reinforcement learning of policy networks)’이다. 말 그대로 강화 학습을 통해 정책 망의 성능을 개선하는 단계다. 딥마인드는 현재의 정책 망과 무작위로 선택된 정책 망 사이의 무수한 반복 대결을 통해 알파고를 학습하도록 했다.

딥마인드는 구굴이 개발한 것이 아니라 영국 딥마인드 사가 개발해 낸 인공지능 바둑 시스템을 구글이 2014년 1월에 인수하여 발전시켜 왔다.
2015년 10월에 유럽 챔피언 판 후이 2단을 상대로 5전 전승을 거둔 바 있다

알파고는 그동안 있었던 16만 건의 기보를 입력하였고 이를 인간처럼 바둑을 두어 학습하고 그것을 축적해 나간다는 것으로 주어진 상황에 가장 최적화된 한 수를 찾아내는 것이다.

그 상황에서 가장 확률이 높은 최적의 수를 찾아가는 방법에 대해 인간이 컴퓨터를 당해 낼 수 있을까?
목적은 오직 하나 반집이라도 이기면 되는 것이기에 룰 이외 그 어떤 것에도 얽매이지 않는 자유로움이 인간을 또 한 번 놀라게 한다.
바둑의 고수라면 도무지 두지 않을 수를 두었는데 그것이 결국은 그 판의 승패를 좌우하는 중요한 한수였다는 것은 무얼 의미할까?



인간은 관습이나 교육의 틀 안에서 이럴 때는 이러이러해야 한다는 불문율 비슷한 것에 묻혀 살아간다.
그것이 일반화되면 문화가 되는 데 그 벽을 논리가 깨 버린 것이다.



새로운 공부 거리가 생겼다는 해설자의 표현처럼 도저히 있을 수 없는 수를 두고 있는 컴퓨터!!
아마 바둑인들은 이런 불문율 같은 무언가를 컴퓨터가 도저히 인간을 넘어설 수 없는 영역이라고 생각한 것은 아닐까?

오로지 이기기 위한 수에만 최적화된 컴퓨터는 몇 집 주더라도 승패에 영향이 없으면 과감히 둔다.
해설자들이 이런 쉬운 실수를 하다니 도저히 이해가 안 간다고 깔보던 수들도 결국은 전체 대세로 보면 이기기 위한 수였다는 것이지 않는가.
인간이라면 뒤가 어찌 될지 몰라 당연히 잡고 가야 할 수를 두지 않고 가는 부분은 알파고가 얼마나 많은 수를 내다보고 있는지 알 수 있게 해 준다.

두 판을 보면서 느낀 것인데 무언가 불확실한 것이 있으면 변수를 없애기 위해 그것이 비록 몇 점을 주는 것이라도 승패에 영향이 없다면 두어서 정리해 버린다는 것이다.
인간은 부분의 승패에 집착할 수밖에 없는데 알파고는 항상 전체 판을 보고 대응하니 아무리 뛰어난 이세돌 9단도 당해 낼 재간이 없는 것이다.

이런 상황이라면 5:0 전패를 예상하지 않을 수 없다.

만약 1승이라도 거둘 수 있다면 대단한 것이라고 생각한다.



그런데 여기서 인간이 기계에게 졌다는 표현은 적절하지 않은 것 같다.
알파고 또한 인간이 만든 것이다.
바둑게임에서 바둑의 최고수가 컴퓨터 엔지니어에게 졌다가 적절한 표현일 것이다.



우리가 주목하는 것은 인공지능이지만 그 이면에 있는 슈퍼컴퓨터와 여러 개의 알파고 시스템이 경험을 공유하는 것처럼 소위 집단지성이라는 부분도 주목해야 할 부분이 아닐까!

아무튼 많은 사람들이 향후 다가 올 인공지능의 시대가 인류의 삶에 미칠 영향을 기대하면서도 우려의 눈길을 보내고 있는데 이 모든 것을 인간이 만드는 것이기에 인간이 제어할 수 있을 것이라고 믿어 의심치 않는다.


<노란보석>


지성캘리안개.png


keyword
매거진의 이전글쓰레기통