1972년, 스탠퍼드 대학교의 한 방.
네 살짜리 아이가 테이블 앞에 앉아 있다. 테이블 위에 마시멜로 하나. 연구자가 말한다. "지금 먹어도 돼. 하지만 내가 돌아올 때까지 안 먹고 기다리면, 하나 더 줄게." 연구자가 나간다. 아이는 마시멜로를 쳐다본다.
어떤 아이는 연구자가 문을 닫기도 전에 집어먹었다. 어떤 아이는 마시멜로 냄새를 맡고, 만지고, 핥다가 결국 먹었다. 어떤 아이는 고개를 돌리고, 노래를 부르고, 발을 구르며 15분을 버텼다.
월터 미셸의 마시멜로 실험. 심리학 역사상 가장 유명한 실험 중 하나다. 후속 연구에서, 15분을 참은 아이들이 수십 년 뒤 학업 성취도, 건강, 소득에서 더 나은 결과를 보였다는 결과가 나왔다. "만족 지연(Delayed Gratification) 능력이 인생의 성공을 예측한다"는 결론은 자기계발서의 단골 소재가 됐다.
하지만 이 이야기에는 빠진 것이 있다. 참는 것 자체가 왜 어려운지. 그리고 그 어려움이 사실은 뇌의 버그가 아니라 설계라는 것.
AI의 강화학습이 이 질문에 놀라울 만큼 정확한 답을 준다.
강화학습에서 에이전트는 행동을 선택하고, 보상을 받고, 다음 행동을 조정한다. 여기서 보상에는 두 종류가 있다.
즉시 보상(Immediate Reward): 행동 직후에 바로 주어지는 보상. 마시멜로를 먹으면 바로 달콤하다.
지연 보상(Delayed Reward): 한참 뒤에 주어지는 보상. 15분 참으면 마시멜로가 두 개가 된다.
이론적으로, 지연 보상이 더 크다면 기다리는 게 합리적이다. 1 < 2니까. 하지만 강화학습 에이전트도 지연 보상 앞에서 흔들린다. 왜? 미래의 보상은 불확실하기 때문이다.
연구자가 정말 돌아올까? 돌아와서 정말 하나 더 줄까? 15분이 아니라 30분이 걸리면? 기다리는 동안 마시멜로가 사라지면?
이 불확실성을 수학적으로 처리하기 위해 강화학습에는 할인율(Discount Factor, γ)이라는 값이 있다. 0과 1 사이의 숫자로, 미래 보상의 현재 가치를 계산할 때 쓴다.
γ가 1에 가까우면, 에이전트는 미래의 보상을 현재의 보상과 거의 동등하게 본다. "내일의 100원은 오늘의 100원과 거의 같다." 장기적으로 사고한다.
γ가 0에 가까우면, 에이전트는 미래의 보상을 거의 무가치하게 본다. "내일의 100원은 오늘의 10원 정도밖에 안 된다." 눈앞의 것만 취한다.
마시멜로 실험에서 바로 먹은 아이의 γ는 0에 가까웠고, 15분을 참은 아이의 γ는 1에 가까웠다. 하지만 — 여기가 중요한데 — 낮은 γ가 반드시 나쁜 것은 아니다.
왜 그런지 생각해보자.
원시시대의 인간에게 γ = 1은 치명적이었다. 눈앞에 열매가 있는데, "나중에 더 큰 열매를 찾을 수 있을 거야"라며 지나치면? 그 사이에 굶어 죽는다. 사자가 쫓아오는데, "장기적으로 이 방향이 더 나을 거야"라며 계산하면? 잡아먹힌다. 즉시 보상을 택하는 본능 — 낮은 γ — 은 수만 년간 인류를 살려온 생존 전략이었다.
문제는 환경이 바뀌었다는 것이다.
원시시대에는 미래의 보상이 실제로 불확실했다. 내일 열매가 있을지 없을지 아무도 몰랐다. 하지만 현대 사회에서는 많은 지연 보상이 비교적 확실하다. 매달 적금을 넣으면 이자가 붙는다. 운동을 꾸준히 하면 체력이 올라간다. 공부를 하면 시험 점수가 오른다. 보상의 불확실성이 줄었는데, 우리의 γ는 아직 원시시대에 머물러 있다.
뇌는 여전히 마시멜로를 지금 먹으라고 속삭인다. 환경은 바뀌었지만 하드웨어는 업데이트되지 않았다. 이것이 지연 보상이 어려운 진짜 이유다. 의지가 약한 게 아니라, 뇌의 할인율이 현대 환경에 맞지 않는 것이다.
강화학습 연구자들은 이 문제를 어떻게 다루는가?
첫째, 할인율을 환경에 맞게 조정한다.
보상이 확실한 환경에서는 γ를 높게 설정한다. "이 환경에서 미래의 보상은 믿을 수 있다"고 알려주는 것이다. 보상이 불확실한 환경에서는 γ를 낮게 유지한다.
인간 버전은 이렇다. 지연 보상을 선택하기 전에, 그 보상이 얼마나 확실한지를 먼저 판단하라. 모든 지연 보상이 기다릴 가치가 있는 건 아니다. "3년만 참으면 승진할 수 있어"라는 약속이 정말 신뢰할 수 있는가? 승진의 기준은 명확한가? 회사가 3년 뒤에도 존재하는가? 불확실하다면 γ를 낮추는 것이 합리적이다. 반대로 "매일 30분 운동하면 3개월 뒤 체력이 올라간다"는 거의 확실하다. 여기에는 γ를 높여야 한다.
요컨대, 지연 보상을 무조건 참으라는 게 아니다. 확실한 지연 보상에만 γ를 높여라.
둘째, 중간 보상을 설계한다.
앞 장에서 보상 희소성 문제를 다뤘다. 보상이 너무 멀리 있으면 에이전트가 학습하지 못한다. 해법은 중간 보상(Intermediate Reward)을 배치하는 것이었다.
다이어트의 최종 보상은 "6개월 뒤 10kg 감량"이다. 너무 멀다. 뇌의 γ로는 거의 0에 가까운 가치다. 그래서 대부분 포기한다. 하지만 중간 보상을 깔아두면 달라진다. "이번 주 1kg 감량하면 주말에 좋아하는 카페 간다." "2주 연속 운동하면 운동화 새로 산다." 최종 목표까지의 긴 터널에 가로등을 켜는 것이다. 각 가로등이 즉시 보상 역할을 하면서, 에이전트를 다음 가로등까지 끌고 간다.
이것은 자기 보상 시스템의 설계다. 의지력으로 어둠을 버티는 게 아니라, 경로에 불을 켜서 걷고 싶게 만드는 것이다.
셋째, 시뮬레이션을 돌린다.
최신 강화학습 모델들은 실제로 행동하기 전에 머릿속에서 먼저 시뮬레이션을 돌린다. "이 행동을 하면 10스텝 뒤에 어떻게 될까?"를 미리 계산해보는 것이다. 이것을 모델 기반 강화학습(Model-Based RL)이라고 한다.
인간도 이것을 할 수 있다. 실제로 해본다. 미래의 자기 자신을 상상하는 것. 심리학에서는 이것을 "미래 자아와의 연결(Future Self-Continuity)"이라고 부른다.
재미있는 연구가 있다. 사람들에게 디지털로 노화시킨 자기 얼굴을 보여줬더니, 은퇴 저축액이 늘어났다. 60세의 나를 생생하게 상상할수록, 그 미래의 나를 위해 지금 무언가를 하려는 동기가 강해진다. 미래의 나가 추상적인 개념이 아니라 구체적인 사람으로 느껴질 때, γ가 올라간다.
마시멜로 실험으로 돌아가자.
15분을 참은 아이들의 전략을 분석해보면, 그들이 한 것은 '참기'가 아니었다. 마시멜로에서 주의를 돌리는 것이었다. 노래를 부르고, 발을 구르고, 다른 생각을 했다. 즉시 보상의 유혹을 정면으로 맞서서 이긴 게 아니라, 유혹 자체를 시야에서 치운 것이다.
이것은 강화학습의 상태 표현(State Representation) 개념과 통한다. 에이전트가 환경을 어떻게 인식하느냐에 따라 행동이 달라진다. 마시멜로가 눈앞에 있는 상태("달콤한 간식")와 마시멜로가 시야 밖에 있는 상태("기다리면 두 개")는 같은 물리적 환경이지만 다른 심리적 상태다. 상태 표현을 바꾸면 행동이 바뀐다.
냉장고에 맥주가 보이는 상태와, 맥주가 불투명한 서랍 안에 있는 상태. 물리적으로 같은 거리지만, 후자에서 유혹이 훨씬 약하다. 스마트폰 알림이 켜진 상태와, 무음으로 뒤집어놓은 상태. 공부해야 하는데 SNS 앱이 첫 화면에 있는 것과, 폴더 세 개 안에 숨겨놓은 것. 환경을 재설계해서 즉시 보상의 접근성을 낮추는 것. 이것이 마시멜로를 참는 진짜 방법이다.
의지력으로 유혹과 싸우는 것은 γ를 정면으로 올리려는 시도다. 가능하지만 에너지가 많이 든다. 환경을 재설계하는 것은 유혹 자체를 줄이는 시도다. 같은 γ로도 지연 보상을 선택할 수 있게 만든다.
인생의 거의 모든 의미 있는 보상은 지연 보상이다.
건강, 전문성, 깊은 관계, 창작의 완성, 경제적 자유. 이 중 하루 만에 얻을 수 있는 것은 하나도 없다. 전부 수개월, 수년, 때로는 수십 년의 시차가 있다.
반대로, 인생의 거의 모든 즉시 보상은 가치가 작다. 도파민 한 방의 SNS 알림, 야식의 포만감, 충동구매의 쾌감. 즉각적이지만 순식간에 사라진다. 그리고 사라진 뒤에 후회라는 음의 보상을 남긴다.
이 구조를 아는 것만으로도 삶이 달라진다. 즉시 보상의 유혹 앞에서 "이건 내 원시 뇌의 낮은 γ가 시키는 일이다"라고 자각하는 것. 그리고 환경을 재설계하는 것. 중간 보상을 깔아두는 것. 미래의 나를 구체적으로 상상하는 것.
마시멜로를 참는 것은 고통이 아니라 설계의 문제다. 그리고 좋은 설계는, 참을 필요조차 없게 만든다.
미래의 당신이 감사할 선택을 오늘 하라. 그것이 어렵다면, 오늘의 환경을 미래의 당신이 설계하게 하라.
그것이 할인율을 이기는 방법이다.