다시, 드래곤볼 Day 63.

알파고 승리 알고리즘

Oct 10. 2025

AI의 역사에 관한 책을 읽다가 우연히 알파고에 대한 흥미로운 알고리즘을 알게 되었다. 알파고는 바둑 천재 이세돌과의 승부에서 최초로 승리한 AI이다. 그 당시 엄청나게 이슈가 되었던 사건이었다. 알파고의 승리는 AI는 인간을 능가한다, 인류는 끝났다, 이제 AI 시대다 등등 놀라우면서도 한편으로는 모두에게 엄청난 불안감을 불러일으켰다. 나는 그 당시 진짜 AI에 대해 일자무식이어서 별로 관심이 없었다. 음 그냥 그런 일이 있었구나 하고 넘어갔었던 것 같다. 하지만 9년이 지난 지금 시점, AI는 나 같은 사람의 일상에서도 빼놓을 수 없는 일부가 되었다. 역시 기술에 후퇴는 없다. 진보만 있을 뿐이라는 사실을 새삼 느꼈다. 그래서 공부 열정 모드인 최근에 여러 책을 읽다가 결국 AI에 대한 공부까지 하게 된 것이다.

일단 AI의 역사부터 공부를 해나갔다. 초기 체스 기계부터 딥러닝 머신 러닝 등 진화의 여정을 흥미롭게 살펴봤다. 많이 공감한 부분은 결국 AI도 사람이 만든 것이라는 것이다. 그렇기에 그 모든 여정이 뇌의 메커니즘이 베이스가 될 수밖에 없다. 그러다 알파고 학습 관정에서 뭔가 번뜩하고 재미있는 구조를 발견했다. 알파고는 여러 과정을 학습하고 훈련했는데 정말 복잡 다단했다. 하지만 결국 이세돌을 이것은 바로 정책망-몬테카를로 트리-가치망이라는 학습 과정이었다. 간단하게 요약하자면 아래와 같다.

1) 정책망: 중간 수준의 기보를 가지고 학습하고 가장 확률이 높은 수를 추출한다.

2) 몬테카를로 트리: 추출된 수 한정, 무작위적으로 최대한 많은 양을 학습하여 가장 강한 수를 추출한다.

3) 가치망: 추출된 강한 수를 가지고 오로지 승리만을 목적으로 집중 학습을 한다.

정책망 → 몬테카를로 트리 → 가치망

이 순서로 알파고는 무한 반복 학습하여 스스로를 성장시킨 것이다.

나는 여기서 심장이 두근거렸다. 뭔가 지난 시간 동안 내가 진행했었던 학습 방법과 찾은 방향에서 맥락이 비슷했다. 그동안 나는 나에게 맞는 방법을 찾고자 수많은 시도를 했었다. 오래 걸렸고 시행착오도 많았지만 내가 어떤 인간인지 어떤 강점이 있고 약점이 있는지를 파악하게 되었고 어렴풋하지만 방향성도 잡게 된 된 나만의 방법이었다. 반면에 언제나 의심은 들었기에 중간중간 방황도 많이 했었다. 하지만 알파고의 학습 방법을 보니 이제는 뭔가 확신이 들었다. 물론 AI의 학습 과정이 나와 완벽하게 맞지는 않겠지만 적어도 방향성만큼은 인간의 뇌 베이스에서 나왔기에 실효성은 분명히 있다는 생각이 들었다.

그래서 나의 방법은 아래와 같다.

0) 명확한 목적 설정

1) 정책망: 보편성을 먼저 학습하고 그중 좋은 결과들의 공통점과 전략의 핵심을 도출한다. 나의 과정에서 그 핵심과 맞는 역량을 최대한 추출한다.

2) 몬테카를로 트리: 추출된 역량들을 나열하고 최대한 많은 시도를 투입하여 경험을 축적하고 학습한다. 그중 가장 성공 확률이 높은 강한 역량을 추출한다.

3) 가치망: 설정된 명확한 목적을 향해 추출된 강한 역량으로 모든 에너지를 정렬하여 무한 반복으로 시도를 하여 결과를 만들어 낸다.

keyword

쾌락칸트 직업 크리에이터

세상의 혼돈에 저항하며 스스로의 질서를 세운다. 미라클모닝 500일, 치열한 사유의 기록.

팔로워 4

작가의 이전글다시, 드래곤볼 Day 62.다시, 드래곤볼 Day 64.작가의 다음글