알파고의 비밀, '강화 학습'에 대해 알아보자
‘인공지능’ 알파고는 2016년 이세돌 9단과의 대국을 4승 1패로 승리한 데 이어 2017년 중국 커제 9단을 3전 전승으로 이겼습니다. 알파고는 어떤 학습 방식을 거쳐 천하무적이 될 수 있었을까요? 바둑으로 알파고를 이길 더 강한 인공지능이 나올까요? 2017년 6월 23일 발간되는 ‘카카오 AI 리포트' 6월호(vol.4)에서는 ‘알파고’의 비밀을 밝혀보려 합니다. 이번 브런치 글에서는 서울대학교 CPS연구소(Cyber-Physical Systems Laboratory) 박사 과정인 최성준 님이 알파고를 무적으로 만든 ‘강화학습’에 대해 일반 독자들 눈높이에서 간략히 설명해 드립니다. 더욱 자세한 내용은 ‘카카오 AI 리포트’ 6월호에 실릴 예정입니다.
최성준 서울대학교 CPS연구소(Cyber-Physical Systems Laboratory) 박사 과정
제가 학부를 졸업하고 대학원 세부 전공을 탐색하던 2010년, 전기컴퓨터공학을 전공하는 학부생과 대학원생 사이에서는 앤드류 응(Andrew Ng) 교수님이 스탠퍼드 대학에서 연구했던 기계학습(machine learning) 수업[1]을 공부하는 것이 유행이었습니다. 당시 학교 컴퓨터실에서도 항상 몇몇 학생들이 이 수업을 듣고 있을 정도로 인기가 높았습니다. 저 역시 이 수업을 들으며 기계학습이라는, 당시는 조금 생소했던 이 분야를 공부해보면 무척 재밌겠다는 막연한 생각을 갖고 있었습니다.
당시 응 교수님은 앳되고 어수룩한 모습으로 칠판에 수식을 잔뜩 적으며 열정적으로 수업을 하셨던 기억이 납니다. 당시 기계 학습을 크게 세 가지로 구분하였는데, 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 그리고 강화 학습(reinforcement learning)이었습니다. 앞의 두 가지는 어떤 것인지 이해가 되었던 것 같은데, 강화 학습만큼은 직관적인 이해가 잘 되지 않았습니다. 당시에는 제가 강화학습 문제를 지금처럼 심도 있게 다룰지 전혀 몰랐었지요.
7년 뒤인 2017년 6월 지금 제가 연구하는 분야인 강화학습이란 단어는 인공지능에 관심이 있는 사람들은 대부분 한 번쯤 들어봤을 법한 단어가 되었습니다. 이 모든 것은 알파고 덕분이 아닐 수 없습니다(고맙다 알파고!).
알파고 학습 알고리즘은 ‘몬테카를로 트리 탐색’
인공지능 강화학습 연구도 ‘온고지신’에서 출발
‘보상 함수’는 강화학습의 가장 큰 장점이자 단점
흔히 알파고가 바둑을 학습해 온 방법을 강화학습으로 규정하기도 하지만, 엄밀히 말하자면 알파고에 사용된 방법은 일반적으로 사용되는 강화학습으로 보기는 힘듭니다. ‘카카오 AI 리포트’ 6월호(vol.4)에서 더욱 자세히 설명하겠지만, 알파고의 학습 알고리즘은 ‘몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)’ 방식으로, 바둑이나 체스와 같이 두 명이 번갈아가면서 플레이하는 게임에 최적화된 학습 알고리즘입니다. MCTS 방법 중 강화학습과 '비슷'한 부분이 있긴 합니다. 딸기맛 우유에 딸기가 아닌 딸기향 착신료가 들어가는 것과 같다고 할까요?
제가 카카오 AI 리포트 6월호에서 다룰 강화학습 관련 주제들은 다음과 같습니다.
1. 우선, 강화 학습 학문의 근간이 되는 마코프 디시젼 프로세스(Markov Decision Process, MDP)와 MDP 문제를 해결하기 위해 사용하는 벨만 이퀘이션(Bellman equation)을 소개드립니다. MDP를 풀기 위한 몇 가지 알고리즘들과 현재의 딥마인드를 있게 한 DQN(Deep Q-network)까지의 흐름도 곁들일 예정입니다. 온고지신이라 하지 않았나요. 인공지능 공부에서도 이 분야(강화학습) 고전을 알아두면 큰 도움이 된답니다.
2. 두 번째로, 인공지능 분야 연구 최전선(front line)에서 현재 연구가 이뤄지고 있는 강화학습 방법론들을 소개합니다. 알파고는 지난 해 이세돌에 이어 현재 세계 랭킹 1위인[2] 중국의 커제를 3전 전승으로 물리쳤습니다. 새로운 알파고에 탑재된 알고리즘은 아직 공개되지 않았지만, 이세돌과 대국한 알파고에 탑재된 학습 알고리즘인 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 소개합니다. 그리고 폴리시 그래디언트(policy gradient)에 속하는 강화 학습 방법론들도 함께 알아볼 예정입니다.
3. 마지막으로, 기존 강화학습의 한계점과 이를 극복하기 위한 방법론들, 그중에서도 모방학습과 결합하는 연구들에 대해서 살펴볼 것입니다. 강화 학습의 장점이자 단점은 바로 보상 함수입니다. 우리가 어떻게 하는 것이 좋다는 것을 기술하는 보상 함수만 주어지면, 이를 최적화하는 동작을 찾을 수 있다는 점이 강화 학습의 가장 큰 장점이지만, 새로운 문제에 대한 '적절한' 보상 함수를 설계하는 것은 생각보다 어려운 일입니다.
‘알파고’를 만들어낸 ‘강화학습’의 비밀! 오는 6월 23일 발행될 카카오 AI 리포트 제4호(vol.4)에서 저와 함께 그 비밀을 풀어보시길 바랍니다.
*참고 문헌 및 참고 이미지
[그림] 출처 | https://deepmind.com/research/alphago/alphago-china/
[1] 출처 | https://www.youtube.com/watch?v=UzxYlbK2c7E
[2] 참고 | https://www.goratings.org/en/