금요일 저녁이다. 배가 고프다. 선택지는 두 가지.
하나. 늘 가던 그 집. 사장님이 얼굴을 알아보고, 주문 안 해도 "평소 거요?" 하고 묻는다. 맛은 보장되어 있다. 실패 확률 제로. 그 대신 놀라움도 제로다.
둘. 한 번도 가본 적 없는 새 식당. 인스타에서 봤는데, 사진은 괜찮아 보인다. 하지만 실물은 모른다. 기대 이상일 수도 있고, 돈과 시간을 완전히 날릴 수도 있다.
어디로 갈 것인가?
이 질문은 금요일 저녁의 사소한 고민처럼 보이지만, 사실 인류가 수만 년 동안 풀지 못한 문제다. 인공지능 분야에서는 이것을 탐색-활용 딜레마(Exploration-Exploitation Dilemma)라고 부른다.
활용(Exploitation)은 이미 아는 것 중에서 가장 좋은 것을 반복하는 전략이다. 단골집에 가는 것. 검증된 방법을 고수하는 것. 잘하는 것을 계속하는 것. 활용의 장점은 명확하다. 확실하고, 안전하고, 평균 점수가 높다.
탐색(Exploration)은 아직 모르는 것을 시도해보는 전략이다. 새 식당을 가보는 것. 해본 적 없는 일에 도전하는 것. 불확실하지만 새로운 정보를 얻는 것. 탐색의 장점도 명확하다. 현재의 최선보다 더 나은 것을 발견할 가능성이 있다.
문제는, 두 전략이 같은 시간을 놓고 경쟁한다는 것이다.
새 식당에 간 금요일 저녁은, 단골집에 가지 못한 금요일 저녁이기도 하다. 새로운 프로젝트에 투자한 3개월은, 잘하던 일에 쏟지 못한 3개월이기도 하다. 시간은 유한하다. 탐색에 쓸수록 활용의 시간이 줄고, 활용에 쓸수록 탐색의 기회가 사라진다.
그래서 사람들은 한쪽에 치우친다. 어떤 사람은 평생 탐색만 한다. 끊임없이 새로운 것을 시작하지만 어떤 것도 깊이 파지 않는다. 관심사가 매달 바뀌고, 취미가 분기마다 바뀌고, 커리어가 2년마다 바뀐다. 재미있는 사람이지만, 어떤 분야에서도 전문가가 되지 못한다.
어떤 사람은 평생 활용만 한다. 20년 전에 찾은 방법론을 20년째 반복한다. 안정적이고 예측 가능하지만, 세상이 바뀌었는데 자기만 바뀌지 않았다는 사실을 모른다. 어느 날 문득 고개를 들면 주변의 풍경이 완전히 달라져 있다.
AI는 이 딜레마를 매 순간 마주한다.
강화학습에서 에이전트는 환경과 상호작용하며 보상을 최대화하려 한다. 게임을 한다고 치자. 오른쪽으로 가면 점수 10점을 준다는 걸 발견했다. 그러면 계속 오른쪽으로만 가야 할까? 그럴 수도 있다. 하지만 왼쪽에 점수 100점짜리 보상이 숨어 있을 수도 있다. 오른쪽으로만 가는 에이전트는 영원히 왼쪽에 뭐가 있는지 모른다.
반대로, 매번 랜덤하게 돌아다니기만 하는 에이전트는 다양한 곳을 보겠지만, 발견한 좋은 보상을 제대로 써먹지 못한다. 10점짜리를 찾아도 다음 턴에 엉뚱한 데로 간다.
최적의 전략은 둘 사이 어딘가에 있다.
AI 연구자들이 찾은 해법 중 하나가 엡실론-그리디(ε-greedy) 전략이다. 원리는 단순하다. 대부분의 시간(예: 90%)은 지금까지 발견한 최선의 선택을 활용한다. 하지만 나머지 시간(예: 10%)은 무작위로 새로운 시도를 한다. 10번 중 9번은 단골집에 가되, 1번은 새 식당을 가보는 것이다.
이 10%의 탐색이 모든 차이를 만든다.
인생에서 이 비율을 생각해보면 흥미로운 통찰이 나온다.
월요일부터 금요일까지 5일을 일한다고 치자. 엡실론-그리디를 적용하면, 4.5일은 잘하는 일, 잘 아는 방법으로 성과를 낸다. 반나절은 새로운 걸 시도한다. 한 번도 안 써본 도구를 써본다. 관심은 있지만 시도하지 않았던 분야의 글을 읽는다. 아는 사람이 아무도 없는 모임에 나가본다.
반나절이라는 투자가 아깝게 느껴질 수 있다. 그 시간에 잘하는 일을 했으면 확실한 성과가 나왔을 테니까. 하지만 문제는, 세상이 바뀐다는 것이다. 지금의 최선이 1년 뒤에도 최선이라는 보장이 없다. 10년 전의 최고 스킬이 지금은 쓸모없어진 사례는 셀 수 없이 많다. 탐색을 완전히 멈추면, 현재의 최선에 갇힌다. 그리고 그 '최선'이 서서히 낡아가는 것을 느끼지 못한다.
구글은 이걸 알고 있었다. '20% 룰'이라고, 업무 시간의 20%를 본업과 관계없는 프로젝트에 쓰라는 제도를 운영했다. 지메일(Gmail)이 이 20%에서 나왔다. 구글 뉴스도, 애드센스도. 80%의 활용이 회사를 굴렸고, 20%의 탐색이 회사의 미래를 만들었다.
탐색에는 한 가지 불편한 속성이 있다. 대부분의 탐색은 실패한다는 것이다.
새 식당 10곳을 가보면 8곳은 기대 이하다. 새로 시작한 취미 10개 중 8개는 3개월 안에 흥미를 잃는다. 만나본 10명의 새로운 사람 중 깊은 관계로 이어지는 건 1~2명이다. 탐색의 히트율은 낮다.
그래서 사람들은 탐색을 포기한다. "나는 여러 번 시도해봤는데 안 맞아"라고 결론짓는다. 하지만 이건 착각이다. 탐색은 하나의 시도가 성공하기 위한 과정이 아니라, 충분한 수의 시도를 통해 확률적으로 더 나은 선택지를 발견하는 과정이다. 8번의 실패는 비용이 아니라 정보다. '여기는 아니다'라는 정보. 그 정보 덕분에 9번째, 10번째 시도의 방향이 더 정교해진다.
AI가 탐색하는 방식을 보면 더 명확하다. 에이전트는 실패한 탐색에 좌절하지 않는다. 그냥 '이 방향의 보상은 낮다'고 기록하고 다음으로 넘어간다. 감정이 없으니까 가능한 일이라고? 맞다. 하지만 우리가 배울 건 감정을 없애는 것이 아니라, 실패한 탐색에 부여하는 의미를 바꾸는 것이다. 새 식당이 별로였다면, 그건 실패한 저녁이 아니라 '다음에 안 가도 되는 곳' 하나를 확인한 저녁이다.
여기서 AI가 알려주는 가장 중요한 통찰이 하나 더 있다.
탐색의 비율은 시간이 지날수록 줄여야 한다.
AI 학습 초반에는 에이전트가 세상에 대해 아는 것이 거의 없다. 어디를 가도 새로운 정보다. 이 시기에는 탐색의 비율을 높게 잡는다. 30%, 40%까지도. 하지만 학습이 진행되고 환경에 대한 이해가 쌓이면, 점점 탐색의 비율을 줄이고 활용의 비율을 높인다. 이미 좋은 전략을 충분히 발견했으니, 이제는 그것을 써먹을 때라는 뜻이다. 이것을 엡실론 감소(Epsilon Decay)라고 부른다.
인간의 생애와 놀라울 정도로 닮았다.
20대는 탐색의 계절이다. 여러 관계를 경험하고, 다양한 일을 해보고, 살 곳을 옮겨 다니고, 자기가 뭘 좋아하는지 시험해보는 시기. 이 시기의 탐색 비율은 높아야 한다. 이때 너무 일찍 한 가지에 올인하면, 더 넓은 세상을 보지 못한 채 로컬 미니멈에 갇힐 수 있다.
40대는 활용의 계절이다. 20년의 탐색을 통해 '이것은 나에게 맞고, 이것은 맞지 않다'는 데이터가 충분히 쌓였다. 이제는 그 데이터를 바탕으로 깊이를 파고, 전문성을 쌓고, 복리의 힘을 누릴 때다. 이 시기에 여전히 매년 새로운 커리어를 시작하고 있다면, 탐색 비율이 지나치게 높은 것일 수 있다.
하지만 — 여기가 핵심인데 — 탐색을 완전히 0으로 만들면 안 된다. 세상은 계속 변하기 때문이다. 60대에도 5%의 탐색이 필요하다. 새로운 기술을 하나쯤 배워보는 것. 처음 가보는 나라를 여행하는 것. 한 번도 읽어본 적 없는 장르의 책을 펼치는 것. 이 5%가 나머지 95%의 활용이 고여서 썩지 않게 환기시켜준다.
자, 다시 금요일 저녁이다.
어디로 갈 것인가? 정답은 없다. 하지만 이제 질문의 틀이 달라졌을 것이다. '어디가 더 맛있을까'가 아니라, '지금 나는 탐색이 필요한 시기인가, 활용이 필요한 시기인가'로.
최근에 새로운 곳을 가본 적이 거의 없다면? 탐색 비율이 너무 낮은 것이다. 오늘은 새 식당을 가보라.
최근에 뭘 해도 어중간하고 깊이가 없다는 느낌이 든다면? 탐색 비율이 너무 높은 것이다. 오늘은 단골집에 가라. 그리고 그 맛을 다시 음미하라.
탐색과 활용은 적이 아니다. 파트너다. 탐색이 새로운 가능성을 발견하고, 활용이 그 가능성을 현실로 만든다. 둘 중 하나만으로는 좋은 인생을 살 수 없다. AI가 수십만 번의 시뮬레이션 끝에 도달한 결론도, 결국 이 균형이다.
단골집이 주는 안정감을 즐기되, 가끔은 모르는 골목으로 들어서라.
그 골목 끝에 인생 맛집이 있을 수도 있다. 아닐 수도 있다. 하지만 들어서지 않으면, 영원히 모른다.