멀티암드 밴딧 — 시간은 유한하고 선택지는 많다

by 박현아

넷플릭스를 켠다. 오늘 저녁에 볼 영화를 고르려는 것이다.


스크롤을 내린다. 계속 내린다. 계속. 20분이 지난다. 아직 아무것도 고르지 못했다. 썸네일을 보고, 별점을 확인하고, 리뷰를 읽고, 예고편을 틀어보고 — 그러다 지쳐서 결국 이미 세 번 본 영화를 다시 튼다. 혹은 넷플릭스를 끄고 유튜브를 연다.


영화를 고르는 데 쓴 20분은 영화를 볼 수 있었던 20분이다. 고르느라 쓴 시간은 돌아오지 않는다.


이것이 선택의 가장 잔인한 속성이다. 선택지가 많을수록 좋은 선택을 할 확률이 높아질 것 같지만, 현실에서는 정반대의 일이 벌어진다. 선택지가 많을수록 고르는 데 시간이 오래 걸리고, 고르고 나서도 '다른 걸 골랐으면 더 좋았을 텐데'라는 후회가 커진다. 심리학자 배리 슈워츠는 이것을 선택의 역설(Paradox of Choice)이라고 불렀다.


AI 연구자들은 이 문제를 수학적으로 풀려고 했다. 그리고 아주 오래전부터 알려진 하나의 모델에 도착했다. 멀티암드 밴딧(Multi-Armed Bandit).




카지노에 슬롯머신이 다섯 대 있다고 상상해보자.


각 슬롯머신은 팔(arm)을 당기면 동전을 뱉는다. 하지만 각각의 확률이 다르다. 어떤 놈은 10번 중 3번 당첨되고, 어떤 놈은 10번 중 1번밖에 안 된다. 문제는, 어떤 슬롯머신이 확률이 높은지 모른다는 것이다. 알아내려면 직접 당겨봐야 한다.


당신에게 주어진 동전은 100개다. 100번의 기회. 어떻게 써야 총 당첨금을 최대화할 수 있을까?


전략 1: 다섯 대를 골고루 20번씩 당겨본다. 공평하다. 하지만 이미 세 번 만에 '이건 꽝이다' 싶은 슬롯머신에도 나머지 17번을 낭비하게 된다.


전략 2: 첫 번째 슬롯머신이 두 번 연속 당첨됐으니 100번 전부 그것만 당긴다. 효율적으로 보이지만, 옆에 더 좋은 슬롯머신이 있을 수 있다. 두 번 당첨은 우연이었을 수도 있다.


전략 3: 처음 20번은 다섯 대를 4번씩 돌아가며 시험하고, 나머지 80번은 가장 성적이 좋았던 놈에 집중한다. 이게 좀 더 영리하다.


이것이 멀티암드 밴딧 문제다. 핵심은 간단하다. 제한된 시도 안에서, 탐색(어떤 게 좋은지 알아보기)과 활용(좋은 걸 써먹기)의 비율을 어떻게 배분할 것인가.


앞 장에서 탐색과 활용의 딜레마를 다뤘다. 이번 장은 그 다음 질문이다. 좋다, 탐색도 하고 활용도 해야 한다는 건 알겠다. 그래서 구체적으로 어떻게?




AI 연구자들이 수십 년간 연구해서 찾은 답 중 가장 유명한 것이 UCB(Upper Confidence Bound) 알고리즘이다. 이름은 어렵지만 원리는 직관적이다.


각 슬롯머신을 평가할 때 두 가지를 본다.


하나. 지금까지의 평균 보상. 이 슬롯머신을 당겨서 평균적으로 얼마를 받았는가.


둘. 불확실성. 이 슬롯머신을 아직 몇 번 안 당겨봐서, 평균이 정확한지 확신할 수 없는 정도.


UCB는 이 두 값을 더한다. 평균 보상이 높은 것도 선택하지만, 불확실성이 높은 것 — 즉 아직 잘 모르는 것 — 에도 보너스 점수를 준다. "잘 모르는 것에는 한 번 더 기회를 줘라." 이것이 UCB의 철학이다.


왜 불확실한 것에 보너스를 줄까? 두 번밖에 안 당겨본 슬롯머신의 평균이 낮다고 해서, 그게 정말로 나쁜 슬롯머신이라고 단정할 수 없기 때문이다. 두 번 다 운이 나빴을 수도 있다. 몇 번 더 당겨보면 사실은 최고의 슬롯머신일 수도 있다. 적은 정보로 내린 판단은 위험하다. UCB는 이 위험을 숫자로 계산해서, 섣부른 포기를 막는다.




이걸 인생에 대입하면 묘하게 아프다.


우리는 끊임없이 멀티암드 밴딧 앞에 서 있다. 슬롯머신은 직업일 수도 있고, 관계일 수도 있고, 취미일 수도 있고, 살 도시일 수도 있다. 그리고 동전의 수 — 즉 시도할 수 있는 기회 — 는 유한하다. 시간은 되돌릴 수 없고, 체력은 무한하지 않다.


여기서 사람들이 가장 많이 하는 실수가 두 가지 있다.


실수 1: 두 번 당겨보고 포기하기.


첫 직장이 안 맞았다. 두 번째 직장도 별로였다. "나는 회사 생활에 안 맞는 사람이야." 결론을 내린다. UCB의 관점에서 보면, 이건 샘플이 두 개밖에 없는 상태에서 평균을 확정한 것이다. 불확실성이 극도로 높은데, 그것을 무시했다. 세 번째, 네 번째 회사가 천직일 수 있다. 두 번의 실패에는 정보가 있지만, 결론을 내리기엔 턱없이 부족하다.


연애도 마찬가지다. 두 번 만나고 "이 사람은 아니다"라고 판단하는 것. 물론 첫인상이 중요하다. 하지만 두 번의 만남은 그 사람의 전체가 아니다. UCB라면 이렇게 말할 것이다. "아직 데이터가 부족합니다. 불확실성 보너스를 고려하면, 한 번 더 만나볼 가치가 있습니다."


실수 2: 끝없이 탐색만 하기.


반대의 함정이다. 직업을 10번 바꿨다. 도시를 5번 옮겼다. 취미를 20개 시작했다. 경험은 풍부한데 어떤 것도 깊이가 없다. 100개의 동전을 전부 탐색에 쓴 것이다. UCB는 이런 사람에게 이렇게 말한다. "충분히 탐색했습니다. 지금까지의 데이터 중 평균 보상이 가장 높은 것에 집중할 때입니다."


탐색의 목적은 영원히 돌아다니는 것이 아니다. 활용할 대상을 찾는 것이다. 좋은 슬롯머신을 발견했으면, 남은 동전은 그곳에 집중해야 한다.




여기서 멀티암드 밴딧이 알려주는 가장 실용적인 통찰이 나온다. 37% 룰.


수학자들은 '최적 멈춤 문제(Optimal Stopping Problem)'라는 변형을 통해, 탐색을 멈추고 활용으로 전환하는 최적의 시점을 계산했다. 결론은 놀랍도록 깔끔하다. 전체 기회의 약 37%를 탐색에 쓰고, 나머지 63%는 그때까지 발견한 최선에 올인하라.


구체적으로 이런 뜻이다. 서른 살까지 직업을 정하고 싶다면, 스물한 살부터 서른 살까지의 약 37% — 대략 3년 반 — 은 다양한 일을 시도해본다. 이 기간에는 판단하지 않는다. 데이터를 모으는 시기다. 그리고 3년 반이 지난 후, 그때까지의 경험 중 가장 좋았던 것과 비슷하거나 더 좋은 기회가 나타나면 즉시 선택한다. 주저하지 않는다.


집을 구할 때도 마찬가지다. 10개의 매물을 볼 예정이라면, 처음 3~4개는 구경만 한다. 시장의 감을 잡는 기간이다. 이 기간이 끝나면, 그때까지 본 것 중 가장 좋았던 것보다 나은 매물이 나타나는 순간 계약한다.


37%는 수학적 최적값이다. 탐색이 이보다 적으면 정보 부족으로 잘못된 선택을 할 확률이 높고, 이보다 많으면 좋은 기회를 놓치며 시간을 낭비한다. 물론 인생이 수학 공식대로 돌아가지는 않지만, 하나의 기준점으로 삼기에는 놀라울 만큼 유용하다.




넷플릭스 이야기로 돌아가자. 당신이 매주 영화를 한 편 본다고 치자. 1년에 52편.


37% 룰을 적용하면, 1년의 처음 19주는 탐색 기간이다. 장르를 가리지 않고, 평소 안 보던 감독의 영화를 보고, 별점이 낮아도 궁금하면 틀어본다. 판단하지 않는다. 데이터를 쌓는다. 그 19주가 지나면, 자신의 취향이 어느 정도 보이기 시작한다. 그때부터는 그 취향에 맞는 영화에 집중한다.


하지만 대부분의 사람은 이렇게 하지 않는다. 첫 번째 영화가 재미없으면 "넷플릭스 볼 게 없다"고 선언한다. 혹은 평생 같은 장르만 본다. 둘 다 최적이 아니다. 하나는 탐색 단계에서 너무 빨리 포기한 것이고, 다른 하나는 탐색 자체를 하지 않는 것이다.




멀티암드 밴딧이 가르쳐주는 것은 결국 이것이다.


모든 선택에는 비용이 있다. 이 슬롯머신을 당기면 저 슬롯머신을 당기지 못한다. 이 영화를 보면 저 영화를 보지 못한다. 이 사람을 만나면 저 사람을 만나지 못한다. 시간이 무한하다면 전부 해보면 되지만, 우리에게 주어진 동전은 한정되어 있다.


하지만 동시에, 고르지 않는 것도 비용이다. 넷플릭스 앞에서 20분을 고민하는 동안 당신은 어떤 영화도 보지 못했다. 완벽한 직업을 찾겠다고 5년을 고민하는 동안 5년이 흘렀다. 결정을 미루는 것은 안전해 보이지만, 실제로는 가장 비싼 동전 — 시간 — 을 아무 슬롯머신에도 넣지 않고 바닥에 떨어뜨리는 것이다.


AI는 이 진실을 감정 없이 직시한다. 멀티암드 밴딧 알고리즘은 매 순간 행동한다. 고민하지 않는다. 당겨본다. 결과를 기록한다. 다음을 당긴다. 실패해도 멈추지 않고, 성공해도 안주하지 않는다.


우리에게 감정이 있다는 것은 축복이지만, 선택의 순간에는 저주가 되기도 한다. 실패의 두려움, 후회의 예감, 완벽한 선택에 대한 집착. 이 감정들이 우리를 슬롯머신 앞에 얼어붙게 만든다.


멀티암드 밴딧의 교훈은 단순하다. 당겨봐야 안다. 그리고 충분히 당겨봤으면, 가장 좋았던 곳에 남은 동전을 쏟아라.


지금 당신의 주머니에 동전이 몇 개 남아 있든, 바닥에 떨어뜨리지 마라. 어딘가에 넣어라. 틀려도 괜찮다. 틀린 슬롯머신에서도 데이터는 나온다. 하지만 아무 데도 넣지 않은 동전에서는 아무것도 나오지 않는다.