인공지능 바둑의 실력 차이를 집 수로 환산한다면?

바둑과 인공지능 (2)

by 이재형

앞서 살펴본 알파고 각 버전의 Elo(엘로) 레이팅을 다시 정리하면 다음과 같다.

• 알파고 판(Fan): Elo 3,300

• 알파고 리(Lee): Elo 3,500

• 알파고 마스터(Master): Elo 4,500

• 알파고 제로(Zero): Elo 5,200

• 알파제로(AlphaZero): Elo 5,300


그렇다면 이 Elo 점수 차이를 바둑의 ‘집 수’로 환산하면 어느 정도일까? 약간의 편차는 있지만, 챗GPT와 제미나이 모두 Elo 100점당 약 1집의 가치가 있다고 설명한다. 이를 기준으로 계산하면, A와 B라는 두 인공지능의 Elo 차이가 500점이라면, A가 B에게 5집의 덤을 줄 경우 승률이 50%에 수렴한다는 의미다.


실전에서는 다음과 같은 방식으로 적용할 수 있다. A가 백을 둘 경우에는 기본 덤 7.5집에서 5집을 감한 2.5집의 덤만 받으면 되고, 흑을 둘 경우에는 12.5집의 덤을 상대에게 주어야 승률이 균형을 이루게 된다.


이제 다시 알파고 리와 알파고 마스터 간의 대국으로 돌아가 보자. 앞서 언급했듯, 마스터는 리를 상대로 100전 전승을 거두었다. 흥미로운 점은 이 대국들이 일반적인 덤이 주어지는 호선 바둑이 아니라, 덤이 없는 고전적 호선 방식으로 진행되었다는 점이다. 리는 50판에서 흑을 들었고, 나머지 50판에서는 백을 잡았다. 이는 리가 절반의 대국에서 “정선(先手)”이라는 치수상의 이점을 가지고도 단 한 판도 이기지 못했다는 뜻이다.


두 버전의 Elo 점수 차이는 1,000점으로, 앞서의 기준대로라면 약 10집의 차이에 해당한다. 마스터와 승률 50%를 만들기 위해서는 리가 10집의 덤을 받아야 한다는 계산이다. 그러나 리는 정선으로 둘 때 7.5집의 이점밖에 없었고, 그로 인해 전패를 기록할 수밖에 없었다.


여기서 한 가지 의문이 생긴다. Elo 점수 차이 250점, 즉 약 2.5집의 덤 차이는 “강자 기준으로 승률 약 81%”에 해당한다. 리가 흑을 잡은 대국에서는, 이론상 마스터에게 2.5집의 덤을 준 셈인데, 그렇다면 Elo 점수 상 약 19%의 승률은 기대할 수 있어야 한다. 그럼에도 불구하고 실제 전적은 0% 승률이었다. 이는 Elo 점수 기반의 이론적 계산과 실제 대국 결과 사이의 괴리를 보여주는 사례다.


그렇다면 전통적인 접바둑에서 치수 1점은 몇 집의 가치를 가질까? 이 역시 오래전부터 논의되어 온 주제다. 인공지능 이전 시대에는 대체로 1점당 15집 이상으로 간주되었다. 약 40년 전 <월간 바둑>에서 프로기사들 간의 접바둑 실험을 통해, 2점에서 9점까지의 대국을 분석한 결과, 치수 1점당 15집 이상의 격차가 있다는 결론이 나온 것으로 기억된다.

그러나 이 문제는 인공지능의 등장으로 훨씬 명확해졌다. 필자는 인공지능 ‘카타고(KataGo)’와 가끔 대국을 하는데, 이 프로그램은 첫 수부터 형세 판단을 제공한다. 예를 들어, 4점 접바둑의 경우 약 47집 유리, 5점 접바둑의 경우 약 60집 유리로 시작된다. 이를 환산하면, 치수 1점은 약 12집 내외의 가치가 된다. 물론 이는 카타고의 기준이며, 인간 간의 대국에서는 다르게 적용될 수 있다. 실제로, 내가 친구에게 2점을 접어주는 것보다 20집의 덤을 주는 쪽이 더 편했다는 경험도 있다.


다시 인공지능 대국으로 돌아가 보자. Elo 점수만을 기준으로 본다면, 알파고 리는 마스터를 상대로 약 7~8%의 승률은 기대할 수 있어야 한다. 그러나 전패했다. 실제 실력 차이는 Elo 점수차이 이상이라 추정할 수 있다. Elo 1,000점 차이는 2점 접바둑에 가까운 실력차로 볼 수 있다.


그럼 알파고 제로와 마스터의 비교는 어떨까? 두 인공지능은 7.5집 덤이 있는 호선 바둑을 두었고, 전적은 제로가 89승 11패였다. Elo 차이는 700점, 즉 약 7집의 차이다. 이 수치대로라면, 마스터는 제로에게 정선 바둑 수준의 실력인 셈이다. 그런데 Elo 700점 차이라면 이론상 승률은 98% 이상이어야 하는데, 실제로는 89%의 승률에 그쳤다. 이는 Elo 점수가 실제 기력 차이를 과대평가할 수도 있다는 점을 시사한다.


지금까지 챗봇들과의 대화를 통해, 인공지능 바둑 프로그램 간의 실력을 Elo 점수를 기준으로 분석해 보았다. 그러나 여기서 간과해서는 안 될 중요한 점이 있다. 바로 Elo 점수의 근본적인 한계다.


Elo는 수학적 이론보다는, 인간의 실제 승부 데이터를 바탕으로 통계적으로 도출한 시스템이다. 인간은 승부에서 심리 상태, 체력, 집중도, 실수 등 수많은 요인에 영향을 받지만, 인공지능은 감정이 없고 항상 최적의 수를 계산한다. 따라서 인간을 기준으로 만든 Elo 점수로 인공지능의 기력을 계량화하는 데는 본질적인 한계가 있을 수밖에 없다.


Elo 기준으로 보면, 제로와 마스터의 실력 차이는 약 7집이다. 그러나 필자는 이 차이가 실제로는 1집 이내일 수도 있다고 생각한다.

(계속)


※ 이 글은 <월간 바둑> 2025년 10월호에 실린 필자의 컬럼이다.