새로운 강화학습의 전성기
* 이 글은 AI 전문 뉴스레터 '튜링 포스트 코리아'에 게재한 글의 일부입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.
리처드 S. 서튼 (강화학습의 대부이자 2024년 튜링상 수상자. 앨버타 대학교의 CS 교수)과 데이비드 실버 (딥마인드에서 알파고, 알파제로의 강화학습 연구를 이끌었고, 알파스타의 공동 책임자)는, 수십 년 동안 기계가 ‘직접 행동을 하면서 학습하는 방법’을 연구하고 가르쳐 온 사람들입니다. (리처드 서튼이 데이비드 실버의 지도 교수이기도 했습니다.)
한참 ‘딥러닝’의 열풍이 불어 상대적으로 강화학습에 대한 주목도가 덜 해 지는 상황에서도, 이들은 꾸준히 자기만의 연구를 이어갔습니다.
지금 이 시점, 충분히 강력해진 컴퓨팅 파워와 시뮬레이션 환경, 심층 신경망의 엄청난 발전, 다양하고 접근하기 쉬운 프레임웍 등 덕분에 연구와 응용 분야 모두에서 ‘강화학습’은 주목할 만한 성과를 내고 있습니다. 특히, 최근의 생성형 AI 모델 - 거대 언어모델 - 팀들이 ‘강화학습’ 기법으로 튜닝한 모델과 제품을 수백만 ~ 수천만명의 사용자들에게 배포하기 시작하면서 그 인기와 관심도 자연스럽게 따라왔죠.
데이비드 실버, 리처드 서튼도 이걸 두 눈으로 보고 있었겠죠. 결국 두 사람이 함께 AI의 다음 단계를 ‘경험의 시대 (The Era of Experience)’라고 칭하는 논문을 발표했습니다 - “AI는 경험 그 자체가 발전과 개선을 이룰 주요 매개체가 되고, 결국 그런 경험이 오늘날의 시스템에서 사용되는 사람이 만든 데이터의 규모를 압도하게 될, 그런 새로운 시기의 문턱에 있습니다.”라고 이야기하고 있습니다.
지난 1월 WEF 2025에서 있었던 얀 르쿤의 스피치에 대해서도 튜링 포스트 코리아에서 말씀드렸지만, 역시 지금까지 사람들이 만들어 놓은 데이터만으로는 어차피 충분한 월드 모델을 만들 수 없다고는 생각이 듭니다:
“…데이터 양 관점에서도 텍스트만으로는 충분한 멘탈 모델 (Mental Model), 월드 모델 (World Model)을 만들 수 없다는 걸 비교해서 이야기해 주었는데요. 현재 SOTA를 찍는 LLM들이 대략 20~30 Trillion 토큰으로 훈련을 하는데, 이게 대략 전세계에 공개된 모든 텍스트에 해당한다고 보면 되겠죠. 하나의 토큰이 대략 3 바이트라고 보면, 사이즈로는 ~90 Trillion (약 90조) 바이트입니다. 아마 한 사람이 이 텍스트를 모두 읽는다면 수십만년 쯤 걸릴 겁니다. 반면에, 4살짜리 아기가 무언가를 볼 때 시각피질로 초당 2MB의 데이터가 처리되면서 학습을 한다고 해 보죠. 아기가 깨어있는 시간이 4년간 16,000 시간 정도라고 하면, 총 데이터량이 115조 바이트 정도 되거든요. 4살짜리 아기 하나가 보고 훈련하는데 쓰인 시각 데이터가 인류가 지금까지 만든 텍스트 데이터 전체와 비슷한 셈이죠.” - 얀 르쿤의 WEF 2025 스피치 정리본
사람이 만든 데이터가 아니라, AI 경험이 새로운 석유 (New Oil)가 됩니다. 이게 우리에게 의미하는 바는 무엇일까요?
거대 언어모델, 즉 LLM은 인터넷이라는 매체로부터 ‘데이터’라는 먹잇감을 말 그대로 ‘탐닉’하면서 성장했다고 해도 과언이 아닐 겁니다. 여기다 수많은 ‘크라우드 소싱’을 통해서 동원된 사람들이 합심해서 파인튜닝을 해 왔죠. 잘 구축되어 있는 이 파이프라인은 광범위한 영역에서 LLM이 뛰어난 성과를 보이게끔 만드는데 큰 공험을 해 왔지만, 결국 수조개가 넘는 토큰으로 훈련하는 모델에서조차 우리가 그토록 갈망하는 ‘초인적 능력’을 보여주는데는 한계에 맞닥뜨린 것처럼 보입니다: 새로운 증명을 해 낸다든가, 특정한 과학적 토픽에서 돌파구를 만들어낸다든가 하는 것들에서요.
어쩌면, 사람이 만들어 놓은 데이터를 ‘암기’하는 방법으로는, 결국 사람이 도달한 거리와 깊이까지만 AI가 도달할 수 있도록 해 주는 한계가 있는 것 아닐까요?
데이비드 실버, 그리고 리처드 서튼 두 사람은, 이런 한계가 바로 ‘구조적인 한계’, 즉 근본적인 접근 방식의 한계라고 주장하고 있습니다. AI 모델을 강화학습으로 최적화하는 루프를 ‘Stack Exchange’에서 ‘실제의 세계 - 또는 그에 근접하게 풍부한 시뮬레이션을 할 수 있는 가상의 세계’로 옮긴다고 생각해 봅시다. 강화학습의 보상 체계는 ‘사람이 누르는 클릭’이 아니라 실제 - 또는 실제와 같은 가상 세계 - 에서의 행동의 결과에 따라 움직일 겁니다. 이렇게 학습하도록 만들어진 AI 시스템은, 역사와 사실을 외우는 대신 행동을 해 보고, 관찰하고, 반복하면서 배워가는 에이전트일 겁니다.
이 새로운 경험의 시대를 정의하는 네 가지 중요한 요소는:
평생동안 진행되는 연속적인 경험 (Streams of Lifelong Experience)
센서의 지각 능력과 결합된 모터의 행동 (Sensor-Motor Actions)
사람의 개입없이 환경에서 직접 경험한 결과에 따른 보상 (Grounded Rewards)
비 인간적인 모드와 방식의 추론 (Non-human modes of Reasoning)
이렇게 네 가지 요소들이 잘 자리잡는다면, 실제로 뭐가 바뀌는 걸까요?
‘경험의 시대’에 일어날 변화는, 그저 철학적인 수준의 것들이 아니라, 우리가 지금까지 구축해 온 AI의 ‘파이프라인’ 레벨에서의 큰 변화입니다.
메모리 인프라스트럭쳐 성격의 변화
지금과는 달리, 에이전트들에 대한 훈련을 ‘한 번 크게 하고 그 이후에 프리즈 (Freeze)’하는 방식은 바뀌게 될 겁니다. 주 단위, 월 단위, 연 단위에 걸쳐서 기억을 계속해서 축적할 거예요. 하지만 또 다른 한 편으로는, 이렇게 ‘절대 망각을 모르는’ 에이전트이기 때문에 오히려 자신의 과거를 ‘큐레이션’할 필요도 있습니다. 중요한 순간만을 압축하고, 태그하고, 복습하는 메모리 증류기 (Memory Distillers)가 떠오르게 될 겁니다.
UX로서의 보상 체계, 보상 체계로서의 UX
이 개념은 잘 생각해 봐야 하는데요. 지금 기껏해야 ‘엄지 척!’ 이모티콘 정도에 머무르고 있는 피드백 시스템이 실세계의 수많은 신호들 - 혈압, 당기는 강도, 오차 범위 등 - 을 포함하도록 확장되어야겠죠. ‘프롬프트 엔지니어링’은 ‘보상을 설계하는 작업’으로 그 성격이 변해야 할 겁니다. ‘제품 설계’라는 작업이 인터페이스에 대한 직관과 실세계의 작업 결과를 혼합하는 작업이 될 겁니다.
‘사전 훈련’으로서의 시뮬레이션
에이전트가 예를 들어 기후 정책의 결과라든가 생명공학과 같은 영역의 어플리케이션을 운용하기 전에, 합성된 시뮬레이션 세계에서 사전 훈련을 하는 게 일반화될 겁니다. 일종의, ‘과학 실험용 심시티’ 같은 거라고 할까요? 에이전트가 실험하면서 실패도 하고, 그 과정에서 발전을 하면서 스스로 업데이트를 하는, 실험실이죠. 에이전트가 더 똑똑해질수록, 시뮬레이터도 더 좋아지구요, 이런 피드백 루프가 바로 경쟁력의 핵심이 됩니다. 물질, 기후, 생물학 같이 실제 세계에서 현상이 일어나고 반복되는게 상대적으로 느린 분야라면, 시뮬레이션을 통한 방법이 발전을 가속화하는 좋은 방편이 됩니다.
때로는, ‘눈에 띄지 않는’ 것들이 더 중요하죠 - ‘경험의 시대’에 일어날 파이프라인의 변화 못지 않게, 그 이면에 우리가 주의를 기울이고 대응을 준비해야 할 변화들이 있습니다:
경험의 유동성 (Experience Liquidity)
오늘날의 데이터 브로커들이, 말 그대로, ‘데이터를 판매’한다면, 내일의 브로커들은 ‘궤적 (Trajectories) - 즉 경험’을 판매하게 될 겁니다. 사람이 만든 데이터의 시대에는, 데이터의 더미에 그 가치가 있었지만, 경험의 시대에는 보상 채널, 그리고 그걸 생성하는 환경을 통제하는 측으로 그 가치가 이동합니다.
월드 모델에 대한 감사 (World-Model Audits)
에이전트가 스스로 다음 단계이 작업을 계획하기 위한, 그런 관점에서 미래를 상상한다고 생각해 보죠. 그런 세상에서, 우리에게는 그 ‘에이전트가 상상한 미래’에 대한 가시성 (Visibility)이 필요할 겁니다. 예를 들면, ‘에이전트가 꾸는 꿈에 대해서 설명할 수 있는 AI 대시보드’ 같은 새로운 도구가 등장할 겁니다. 에이전트가 왜 그렇게 움직일까, 왜 그런 시뮬레이션 궤적을 선택했나 등을 설명하는 도구들이요.
위임된 호기심, 위임된 위험 (Delegated Curiosity, Delegated Risk)
주변과 환경을 탐색하도록 임무를 부여받은 에이전트들은, 때때로 ‘예상치 못한 무언가’를 발견하게 될 거예요 - 어떤 건 큰 영향을 끼칠 수 있고 때로는 위험한 뭔가도 있겠죠. 2016년, 알파고와 이세돌의 대국에서 알파고가 두었던 37번째 수는, 예상하기는 어려웠지만 어떻게 봐도 ‘위험한 건 아니’었죠. 그렇지만, 어떤 연구소에서 사용하는 ‘화학 신물질 개발 에이전트’가 아직 우리가 이해하지 못하는 물질을 발견한다고 하면, 어떨까요?
에이전트에게 현실에 대해 경험할 수 있는 풍부한 정보를 제공해 줄 인터페이스, 탐색과 실험을 장려할 만한 유연한 보상 시스템, 그리고 충분한 시간을 준다면, 지금까지 우리가 만들어 준 데이터의 범위, 그리고 우리가 생각할 수 있는 추론의 스타일 모두를 뛰어넘는 에이전트가 분명히 탄생할 거라고 생각합니다.
당장 ‘파이프라인’의 관점에서는, 개발자들에게 큰 함의와 시사점이 있을 거예요. ‘프롬프트 라이브러리’가 아니라 ‘경험의 파이프라인’을 구축하는 쪽으로 전환을 해야 할 테구요. AI를 가르치는데 썼던, 고정된 말뭉치는 이제 버리고 ‘진화하는 환경’을 준비해야 할 겁니다. 왔다갔다하는 채팅 세션이 아니라 ‘지속적인 학습을 할 수 있는 루프’를 설계해 주어야 하겠죠. 이렇게 만들어진 에이전트, 예를 들어 다음 버전의 ‘알파제로’라면, 그냥 바둑 게임에서 우승하는게 아니라, 보드를 새로 디자인하고, 규칙을 다시 설계하고, 당신이 아침식사 마치기 전에 아마 수만 번의 계절 변화를 시뮬레이션 할 겁니다.
이렇게 우리의 인식, 행동, 결국 문화를 형성하는데까지도 영향을 미칠 AI와 우리, 사람과 AI의 Co-Agency는 어떻게 만들어가야 할까요? 이 질문은 앞으로 ‘(우리가 해온 것과는 다른 차원의) 경험의 시대’를 맞이해서 앞으로 우리가 ‘사람으로서’ 답해야 할 과제입니다.
경험의 시대, 이제 문을 열고 있는 이 시대에 대한 기대를 담은, 데이비드 실버, 그리고 리처드 서튼의 말을 인용하는 것으로 오늘의 글은 마무리할까 합니다:
“우린 오늘날의 기술이, 적절하게 선택된 알고리즘과 함께, 이미 이런 돌파구를 달성하기에 충분히 강력한 기반을 제공해 준다고 믿어 의심치 않습니다. AI 커뮤니티가 합심해서 이 아젠다를 검토하고 추구한다면, 지금까지와는 전혀 다른 새로운 혁신을 촉진하면서 AI를 진정 초인적인 에이전트로 빠르게 발전시킬 수 있을 겁니다.”