brunch

라이킷 댓글 16 공유 5.5k 브런치 글을 SNS에 공유해보세요

You can make anything
by writing

- C.S.Lewis -

by 이정원 Oct 19. 2017

알파고는 스스로 신의 경지에 올랐다

기보 없이 스스로 깨우쳐 40일 만에 '바둑의 신'이 된 알파고 Zero


딥마인드의 네이처 논문을 받아들고 무엇에라도 홀린 듯이 12시간 동안 글을 완성했다. 엠바고가 걸린 논문에 대한 예우이기도 했지만, 논문이 담고 있는 내용이 그만큼 놀라웠다. 아침, 점심, 저녁을 모두 거르고 물 한 방울 마시지 않은 채 딥마인드의 마법으로 새롭게 태어난 알파고 Zero를 영접했다. 열두 시간이 마치 두 시간처럼 느껴졌다.

알파고가 커제 9단을 3:0으로 완파하고 바둑계를 은퇴한 이후로도 알파고는 진화를 멈추지 않았다. 알파고 Zero는 여러 버전의 알파고 중에서도 끝판왕이다. 알파고 Zero는 커제 9단과 대결했던 알파고 Master를 90%의 승률로 제압하고, 이세돌 9단과 붙었던 알파고를 100 대 0으로 이겼다. 말도 안 되게 센 녀석이다. 알파고 Zero의 바둑 세계는 상상조차 되지 않는다.

알파고 Zero가 마법과도 같은 이유는, 바둑에 대해서 아무것도 모른 채, 마치 원숭이처럼 두기 시작해서 자가 학습만으로 불과 72시간 만에 지구상의 모든 인간을 이길 정도의 바둑 이론을 깨우쳤다는 것이다. 40일이 지나자 알파고 Zero는 말도 안 되는 실력을 갖추고, 신의 자리에 올랐다. 나에게 남은 일은 ‘바둑의 신’을 영접한 날을 이런 글로 기념할 수 있을 뿐이다.

논문은 여러 버전의 알파고를 소개한다. 그 동안 선보였던 모든 알파고의 성능과 구조를 비교하며, 알파고 Zero의 위엄이 자연히 드러나도록 한다. 알파고 Zero는 간결하고 우아하다.

서문이 또 이렇게 길어지다니. 여기서 줄여야 한다. 엠바고가 풀린다.
영접하러 갈 시간이다.

- 2017.10.19. 2AM
표지그림 (출처: deepmind.com)


이제는 놀랍지도 않은 일이다. 엄청난 양의 데이터를 학습한 인공지능이 특정 영역에서 인간의 능력을 뛰어넘는 일이 다반사로 일어나고 있다. 바둑에서는 알파고가 2016년 3월 이세돌 9단(당시 세계랭킹 3위)을 상대로 4:1 승리를 거뒀고, 2017년 5월 세계랭킹 1위 커제 9단을 상대로 3:0 압승을 거뒀다. 커제 9단은 바둑판을 앞에 두고 눈물을 보였다. 거대한 벽을 마주한 느낌이었을 것이다. 알파고는 불과 1년 남짓한 시간에 인간과의 승부를 깔끔하게 마무리하고, 홀연히 바둑계를 은퇴했다.



알파고는 진화를 멈추지 않았다


그런데도 알파고 진화를 멈추지 않았다. 딥마인드는 오늘 발표한 네이처 논문에서, 알파고가 인간을 압도했을 뿐만 아니라 인간으로부터 자립하여 신의 경지에 도달했음을 선포했다. 커제를 울린 알파고를 뛰어넘는 알파고 Zero가 나타났다. 알파고 Zero는 인간의 기보를 학습한 버전이 아니다. 인간의 도움 없이 스스로 학습하는 인공지능이다. 논문을 읽으면서 놀라움을 넘어서는 경이로움을 경험했다.


알파고 Zero는 인간은 물론 지금까지의 어떤 알파고와 비교해서도 한참 높은 레벨에 올라 있으며 간결하고 우아하게 작동한다. 알파고 Zero는 다시 한 번 인공지능의 역사에 남을 기념비적인 성과로 기억될 것이다. 딥마인드의 2016년 논문이 딥러닝 붐을 일으켰다면, 이번 논문은 강화학습에 날개를 달아 줄 것이다.

네이처 논문 제목



알파고의 후예들: 알파고 Fan, Lee, Master, Zero

     

논문에는 여러 버전의 알파고가 등장한다. 2015년 10월 판 후이 2단을 이긴 버전은 알파고 Fan, 2016년 3월 이세돌 9단을 이긴 버전은 알파고 Lee라고 불렸다. 알파고 Master는 2017년 1월 온라인 대국 사이트에서 세계 최고 프로기사들을 60:0으로 제압하여 화제가 됐던 버전이며, 커제 9단과의 대결에서 3:0 완승을 거뒀던 버전이다. 그리고 스스로 학습하여 신의 경지에 오른 버전이 알파고 Zero다.


알파고끼리도 실력 차이가 확연하다. 바둑에서는 상대 전적으로 Elo 점수를 계산하여 랭킹을 매긴다. Elo 점수에서 800점 차이가 나면 승률이 100%다. Elo 점수로 677점 차이 나는 상대와는 100전 99승, 366점 낮은 상대와는 100전 90승을 거둘 수 있다.


2016년 3월 알파고 Lee가 이세돌과의 대결 직후 세계 랭킹 2위에 올랐을 때의 점수가 3586점이었다. 데뷔 후 전적이 다섯 판에 불과했으므로 정확한 실력을 반영했다고 보긴 어려웠는데, 2017년 논문에서 발표한 알파고 Lee의 진짜 실력은 3739점이었다. 이세돌 9단이 한 판을 이겨주는 바람에 알파고 Lee의 실력이 과소평가 되었던 것이다.


알파고 Fan은 3144점, 알파고 Master는 4858점, 알파고 Zero는 5185점이었는데, 신의 경지에 오른 알파고 Zero를 기준으로 알파고 Master와는 327점, 알파고 Lee와는 1446점 차이가 난다 (그림 1). 현재 세계랭킹 1위인 커제 9단과 2위인 박정환 9단의 Elo 점수 차이가 불과 36점인 것을 보면 이 차이가 얼마나 큰 것인지 알 수 있다. 알파고 Zero는 알파고 Master를 89 대 11로 제압했고, 이세돌 9단과 붙었던 알파고 Lee를 100대 0으로 박살냈다.

그림 1. 알파고 각 버전의 Elo 점수. 알파고 Zero: 5185점, Master: 4858점, Lee: 3739점, Fan: 3144점. (출처: 논문의 그림 6.b)


알파고 Zero의 탄생: ‘빈 서판’으로 태어난 알파고 Zero

     

알파고 Zero는 아마도 무()에서 출발했다는 의미로 붙여진 이름일 것이다. 알파고 Zero는 바둑에 대해서 아무것도 모른 채로 태어났고, 아무에게도 배우지 않았다. 스스로 좋은 수를 깨우치는 강화학습 과정이 있을 뿐이다. 딥마인드는 알파고를 ‘빈 서판(tabula rasa)’에 비유했다. 알파고는 처음부터 바둑의 신으로 태어나지 않았으며, 바둑에 관해서는 그 어떤 것도 상속받지 않았다.



알파고 Zero의 성장: 바알못으로 태어나 세계 최고가 되기까지 불과 72시간

     

알파고 성장하는 과정은 바둑을 처음 배우기 시작한 사람이 실력을 키워나가는 과정과 닮았다. 바둑에 입문하면 돌과 돌이 무작정 부딪친다. 반상의 넓은 곳으로 가지 않고 굳이 진흙탕 싸움을 벌인다. 알파고는 학습 초기에 이런 식의 바둑을 두었다. 18급 바둑이다. 그러다가 강화학습을 시작한지 19시간이 되자 돌의 사활, 세력과 실리를 알기 시작했다. 이때 이미 아마 초단 정도의 실력이 된 것으로 보인다. 그리고 72시간의 수련을 마친 알파고 Zero는 세계 최고 레벨이 되었다 (그림 2). 알파고는 아무런 사전 지식 없이 스스로 포석, 맥, 사활, 패, 끝내기, 수상전, 선수, 세력과 실리를 모두 깨우쳤다. (하지만 놀랍게도 알파고 Zero는 축을 아주 나중에야 깨달았다고 한다.)


그림 2. 18급 바둑 (왼쪽), 아마 초단 바둑 (가운데), 세계 최고수 바둑 (오른쪽). (출처: 논문의 그림 5.c)


알파고 Zero는 빠르게 바둑을 익혔다. 알파고 Zero는 불과 36시간 만에 인간의 기보를 학습한 알파고를 추월하고, 3일 만에 알파고 Lee의 수준에 올랐다. 알파고 Lee가 이세돌과의 대결을 앞두고 7개월 동안 학습했던 것을 생각하면 놀라운 속도다. 알파고 Zero가 알파고 Lee보다 140배 빨리 배운다. 이 바둑 천재에겐 세계 최고가 되는데 72시간이면 충분했다 (그림 3).

그림 3. 알파고 Zero는 36시간 만에 알파고 Lee를 넘어섰다. 여러 방식을 비교하기 위해 같은 조건에서 실험한 결과이다. (출처: 논문의 그림 3.a)


딥마인드는 알파고를 더욱 단련시켰다. 알파고 Zero는 총 40일 동안 2천 9백만 판의 바둑을 두었다. 그리고 결국 Elo 5천 점을 돌파했다. 신의 경지다.


그림 4. 알파고 Zero는 3일 만에 알파고 Lee의 수준에 도달하고, 한 달 만에 알파고 Master를 추월했다. (출처: 논문의 그림 6.a)


알파고 Zero의 학습법: 인간이 만든 바둑 이론을 버리고, 온전히 강화학습만으로

     

강화학습은 인간을 포함한 동물들의 뇌에서 실제로 작동하는 방식이다. 특히 강아지 조련사들은 개를 훈련시킬 때 강화학습 패러다임을 활용한다. 이거 해라, 저거 해라 잔소리 할 필요가 없다. 잘 하면 간식을 주고 못 하면 외면하는 방식으로 좋은 행동과 나쁜 행동을 스스로 배우게 한다. 알파고는 자신이 둔 수의 가치를 예상 승률 값으로 판단한다.


알파고 Zero가 신경망학습과 강화학습을 어떻게 사용했는지 이전 버전들과 비교하여 살펴 보자. 알파고 Fan의 학습방식은 2016년 논문에 나와 있지만, 알파고 Lee, Master, Zero의 구조와 학습법은 이번 논문에서 새롭게 소개된 것이다.


(1) 알파고 Fan

2016년 네이처 논문에 소개된 알파고 Fan은 정책망과 가치망으로 구성된 신경망 학습, 강화학습, 몬테카를로 트리 서치의 구조로 이루어졌다. 이에 대해서는 이전에 정리해 둔 글이 있다.

- 알파고는 바둑을 어떻게 둘까 : 알파고 vs. 이세돌 대국 전에 쓴 글 (2016.3.8.)

- 알파고 바둑 정복기 : 알파고 vs. 이세돌 대국 후에 정리한 글 (2016.4.2.)

 

(2) 알파고 Lee

인간 최고 수준에 올랐던 알파고 Lee는 알파고 Fan과 유사하다. 좋은 수를 익히기 위해 정책망과 가치망이라는 두 가지 신경망으로 바둑 이론을 학습하고, 인간의 바둑 격언을 반영한 롤아웃 정책망을 몬테카를로 트리 탐색에 활용했다. 몇 가지 차이점은 있다. 신경망 학습을 위한 셀프 대국에서, 알파고 Fan은 단지 정책망을 활용했고 알파고 Lee는 모든 신경망을 활용하였다. 정책망에만 의존한 알파고 Fan보다 알파고 Lee의 셀프 대국 내용이 좋았을 것이다. 알파고 Lee의 ‘신중하고 빠른’ 셀프 대국은 훗날 ‘빈 서판’으로 태어날 알파고 Zero에 적용된다. 한편, 알파고 Lee의 정책망과 가치망은 알파고 Fan에서의 신경망보다 더 크게 확장된 것이었다. 알파고 Lee는 12개의 콘볼루션 레이어를 사용한다. 학습을 위한 반복도 더 많았다. 그래서 GPU가 아니라 TPU가 필요했다. 알파고 Fan이 176개의 GPU를 사용했고, 알파고 Lee는 48개의 TPU를 사용했다.


(3) 알파고 Master

모든 인간 기사의 수준을 뛰어넘었던 알파고 Master는 구조 면에서 다음에 나타날 알파고 Zero와 유사하다. 알파고 Zero와 동일한 신경망 구조, 강화학습 알고리즘, 몬테카를로 트리 서치 알고리즘을 활용한다. 하지만 학습 면에서 알파고 Master는 이전의 알파고 Lee와 유사하다. 알파고 Lee에서처럼 학습 초기에 사람의 기보 데이터를 활용한다. 사람의 다음 착점을 예측하는 문제 풀이를 통해 정책망을 학습하고, 사람의 바둑 격언으로 이루어진 롤아웃 정책을 셀프 대국 시뮬레이션에 활용한다. 인간을 모방한 알파고 Master의 한계를 알기 전까진 알파고 Master가 바둑의 신인 줄 알았다.


(4) 알파고 Zero

신의 경지에 올라 있는 알파고 Zero는 인간이 만든 바둑 이론과 기보 데이터를 모두 갖다버렸다. 알파고 Zero는 마치 원숭이가 바둑을 배우는 것처럼 완전히 무작위적인 바둑을 두기 시작해서, 오로지 셀프 대국 강화학습에 의해서만 실력을 향상시킨다 (그림 5). 강화학습 과정에서 알파고 Zero는 셀프 대국에 신중하게 임한다. 우선 아무 곳에나 바둑돌을 놓고, 자기 나름대로 다음 수를 생각한다. 셀프 대국에서 한 수를 놓기 위해 0.4초씩 생각하고 1600번의 몬테카를로 트리 서치를 반복한다. 바둑 한 판이 끝날 때까지 자기 나름대로의 바둑을 둔다. 여러 번 두고 승률을 계산한다. 승률을 대충 알았으면, 또 다른 곳에 바둑돌을 놓았다 치고 나름대로 바둑을 두어 본다. 또 승률을 계산한다. 아까 두었던 곳과 이번에 두었던 곳 중에 어느 곳이 더 좋은지 승률을 보고 깨닫는다. 그리고 자신의 바둑 이론도 수정한다. 새롭게 알아낸 좋은 수에 대한 특징을 신경망의 값을 업데이트하여 저장한다. 신경망에 좋은 수에 대한 이해가 차곡차곡 쌓이면서 다음 번 나름대로의 바둑은 조금씩 수준이 올라간다. 셀프 대국 수준이 올라가는 만큼 승률 예측도 정확해진다. 그렇게 3일 동안 4백9십만 판의 바둑을 두다 보면 어느덧 세계 최고의 실력에 도달한다. (알파고 Zero는 한 수에 10만 번의 시뮬레이션을 진행해야 했던 알파고 Lee보다 효율이 좋아졌다. 알파고 Lee는 48개의 TPU를 사용했지만 알파고 Zero는 4개의 TPU를 사용한다.)

그림 5. 알파고 Zero의 셀프 대국 강화학습 (출처: 논문의 그림 1.a-b)


알파고 Zero는 강화학습에 매진하고 나머지 구조를 모두 간결하게 정리했다. 알파고 Zero는 규칙 외에 바둑에 관한 어떠한 지식도 사용하지 않는다. 알파고 Zero 이전의 알파고는 바둑 격언을 활용했다. 알파고 Fan, Lee, Master가 채택한 롤아웃 정책은 ‘붙이면 젖혀라’, ‘젖히면 뻗어라’, ‘모자는 날일자로 벗어라’와 같은 바둑 격언에 대한 것이었다. 하지만 알파고 Zero는 정책망과 가치망을 하나로 통일하고, 롤아웃 정책망을 버렸다. 자신만의 바둑 이론을 하나의 신경망에 담았다. 알파고 Lee가 크게는 두 개, 세부적으로는 네 개의 신경망을 활용한 것에 비하면 간결한 구조다.


실제 대국 중 수읽기(몬테카를로 트리 서치) 방식은 알파고 Fan, Lee, Master, Zero가 동일하다. 알파고는 몬테카를로 트리 서치로 쌍방 최선의 수순을 시뮬레이션을 하고 가장 승률이 높은 수순을 선택하여 착점하는데, 대국 조건으로 정해진 제한시간 안에서 최대한 수읽기를 하면 된다. 제한시간 2시간, 1분 초읽기 3회로 두었던 이세돌 9단과의 대국에서 알파고 Lee는 1분 내에 착점하도록 설정되어 있었다. 알파고 Zero의 대국 조건은 제한시간 3시간, 1분 초읽기 5회였으므로 조금 더 여유가 있었다. 하지만 알파고 Zero는 수읽기 없이도 꽤 잘 한다. 감(하나의 신경망)에만 의존해서 노타임으로 두는 버전도 Elo 점수가 3055점이다. 이는 세계랭킹 437위에 해당하는 실력이다.


알파고 Zero가 이전의 알파고와 가장 크게 다른 점은 학습 데이터나 바둑과 관련한 지식을 활용하지 않는다는 점이다. 알파고 Fan과 알파고 Lee는 16만 건의 기보를 학습했고, 3천만 개의 착점 문제를 풀었다. 사람이 두었던 기보를 바탕으로 작성한 정답과 비교하며 좋은 수를 익혀나갔다. 알파고 Lee는 신경망학습을 끝낸 후 강화학습을 통해 두 급수 실력 향상이 있었다고 했다. 그런데 알파고 Zero는 단 한 건의 기보도 참고하지 않았다. 16만 건의 기보가 바둑을 익히기에 턱없이 부족한 경험이라고 생각했지만, 사실은 이마저도 필요 없는 것이었다.



알파고의 강화학습 노트: 이제는 인간이 배울 때

     

알파고 Zero의 강화학습 노트는 프로기사들에게도 좋은 공부 재료가 될 것이다. 빈 서판으로 태어나 원숭이처럼 바둑을 배우기 시작한 알파고 Zero는 생후 11시간이 되자 프로기사들의 바둑에서 볼 수 있는 정석을 강화학습 노트에 기록했다. 알파고의 전매특허인 묻지마 3-3 침입은 47시간이 되자 알파고의 바둑 이론으로 흡수되었다 (그림 6).

그림 6. 알파고 Zero의 강화학습 노트. 타임라인 방식으로 보여준다. 알파고의 전매특허 3-3 침입이 47시간 쯤 관찰된다.(출처: 논문의 그림 5.a-b)


그런데 3-3 침입 이후의 수순에 대해서 알파고 Zero는 50시간이 지나자 생각을 바꾸었다. 학습 시간별로 알파고가 채택한 빈도를 측정하면, 알파고 Zero의 생각을 엿볼 수 있는데, 그림 7은 3-3 침입 이후 수순에 대한 알파고의 선호가 변하는 과정을 보여준다 (그림 7). 4수까지 동일하고 5수부터 변화가 일어나는 두 모양 중에서, 처음에는 왼쪽의 정석을 사용하다가 시간이 지나면서 오른쪽 정석을 즐겨 쓴 것을 알 수 있다. 시간이 지날수록 사용 빈도가 늘어나는  정석은 알파고 Zero가 특히 좋아하는 수순일 것이다 (그림 8).


그림 7. 알파고 Zero의 강화학습 노트에 정석이 채택된 빈도. 3-3 침입 이후 수순에 대해서 선호가 바뀌는 것을 볼 수 있다. (출처: 논문의 부록 그림 3)
그림 8. 알파고 Zero의 강화학습 노트에 정석이 채택된 빈도. 학습이 진행될수록 채택되는 빈도가 올라간다. (출처: 논문의 부록 그림 2)
그림 9. 학습속도(왼쪽)와 인간 바둑과의 유사도(오른쪽). 인간의 기보를 학습한 버전은 빨간색, 강화학습만을 활용한 버전은 파란색으로 표시했다. (출처: 논문의 그림 3.a-b)


인간과는 다른 길을 가는 바둑의 신: 세 살 버릇 여든까지 간다더니


2017년 1월 알파고 Master는 세계 최고 프로기사들을 상대로 60전 전승을 거뒀다. 딥마인드도 할 만큼 했다는 생각으로 Master라는 칭호를 내렸을 것이다. 하지만 알파고 Master가 오른 봉우리는 정상이 아니었다.


알파고 Zero는 밑바닥부터 출발해서 24시간 만에 기보를 학습한 버전을 따라잡고, 3일째 알파고 Lee를 추월했다 (그림9 왼쪽). 한 달이 되자 알파고 Master가 오른 봉우리보다 더 높은 곳이 있다는 것을 알았다. 그리고 열흘 후에 정상을 확인하고 깃발을 꽂았다.


작년 3월, 이세돌 9단과의 승부를 앞두고 알파고 Fan의 기보를 분석할 때만 해도 알파고가 사람처럼 둔다는 것이 화제였다. 목진석 9단이 바둑TV에서 알파고의 특정 수순에 감탄하며 "프로의 감각이 보인다"고 해설하던 장면이 아직도 생생하다.


작년 3월 9일, 역사적인 알파고 데뷔전을 생중계하던 해설자들은 '프로의 감각'으로 볼 때 알파고는 실수가 많다고 했다. 그런데 알파고는 '실수'를 연발했지만 이세돌 9단보다 집이 많았다. 충격적인 패배 이후 1국에 대한 총평은 실수투성이 인공지능을 이세돌 9단이 얕잡아 보다가 졌다는 것이었다. 알파고는 '실수'가 많으니까 이세돌 9단이 실수를 줄이면 2국은 이길 것으로 생각했다. 2국을 생중계하던 해설자들은 알파고가 "충격"적이거나 "없는 수"를 둔다고 했다. 이해 못할 수를 많이 둬서 중반까지 이세돌 9단이 이기는 줄 알았다. 그런데 막상 집을 세어보면 알파고가 이겨 있었다.


알파고에게는 사람처럼 둔다는 것이 미덕이 아니다. 당연하지만 흥미로운 사실은, 알파고 Zero가 인간의 바둑과 가장 많이 다르다는 점이다. 알파고 Zero는 기보를 학습한 알파고와 비교해서 인간의 바둑을 잘 예측하지 못 한다 (그림 9 오른쪽). 알파고 Zero는 인간의 바둑에 관심이 없다.


세 살 버릇 여든까지 간다는 격언은 인공지능에게도 들어맞는 것 같다. 처음에 잘못 배우면 커서 고치기 어렵다. 백지 상태에서 시작한 알파고 Zero는 정상에 올랐지만, 중간부터 오르기 시작한 알파고는 정상까지 닿는 길을 찾지 못했다.


알파고는 인간과는 다른 길을 갔다.


그리고 인간은 오르지 못할, 신의 경지에 올랐다.


'신의 경지에 올랐다'는 표현에서 전지전능한 신을 떠올리는 분은 없으실 거라 생각하지만, 그래도 사족을 달아봅니다.

소제목에서 언급한 것처럼 '바둑의 신'으로 한정하는 것은 물론이거니와, 프로 기사들에게 '바둑의 신이 있다면 몇 점 깔고 두시겠습니까?"라고 물을 때나 '바둑의 신이 훈수를 한다면 이 장면에서는 어느 자리일까?"라고 물을 때에 가정한, 비유적인 표현으로서의 신을 의미하는 것입니다.

바둑에서는 프로 9단을 '신의 경지에 올랐다'는 의미로 '입신'이라고도 부릅니다. 그렇지만 통상 '바둑의 신'이라고 하면, 프로 기사가 2~3점 정도 깔고 둬야 하는 정도의 실력은 되지 않을까 상상해 왔습니다.

그러한 바둑을 아직 누구도 본 적이 없었고 상상만 해왔을 뿐이지만, 이제는 구경할 수 있게 되었습니다. 그리고 아마도 (사람마다 다르겠지만) 상상했던 그 경지보다 더 높은 곳에 알파고 제로가 있는 것 같습니다. 승률과 치수(몇 점 깔고 두는 것)를 환산하기 어렵기 때문에, 승률이 100%라고 해서 2점 차이다 3점 차이다 얘기하기가 어렵습니다. 알파고 제로가 실제로 몇 점 차이인지는 커제 9단이 돌을 깔고 두어 줘야 궁금증이 풀리겠습니다. 몇 점을 깔고 뒀을 때 승률이 5:5가 된다면 치수가 맞춰진 것입니다.

하지만 아무리 그렇다고 해도, 신경망을 이용한 강화학습이 엄청 뛰어난 바둑 이론을 만들어 낼 수는 있어도, 그 외에 다른 어떤 것도 창조하지는 못합니다. ^^

2017.10.19. 1:25PM 에 덧붙임.


[참고자료]

- 딥마인드의 네이처 논문: Mastering the game of Go without human knowledge, Nature, 2017

- 네이처 아티클: Self-taught AI is best yet at strategy game Go, Nature, 2017

- 딥마인드 홈페이지: AlphaGo Zero: Learning from scratch


[언론기사]

- 연합뉴스: 알파고 제로, AI창의성 확인.. 인간 한계 분야에 적용 가능

- 연합뉴스: 스스로 바둑 깨우친 '알파고 제로' 나왔다... 'AI 신기원'

- 조선일보: 기보 한장 안보고 바둑의 신이 됐다... 알파고 '2차 쇼크'

- 조선비즈: 기보 학습도 없이 전승 '알파고 제로' 나왔다

- 중앙일보: 알파고 업그레이드... 더 이상 인간의 기보 입력 안 한다

- 한겨레: 기존 알파고에 100전 100승 한 '알파고 제로' 공개

- 한겨레: 인간 도움없이 독학한 알파고 제로, 범용AI 나오나


keyword
과학과 예술, 미술관과 재즈바, 펜탁스와 고프로.
https://www.facebook.com/madlymissyou
댓글

    매거진 선택

    키워드 선택 0 / 3 0
    브런치는 최신 브라우저에서 최적화 되어있습니다. IE chrome safari