The Era of Experience
알파고(Alphago), 알파제로(AlphaZero) 프로젝트를 주도했던 구글 딥마인드의 수석 연구 과학자 David Silver와 현대 강화학습의 창시자 중 한 명인 Richard S. Sutton. 최근 이들이 발표한 논문 Welcome to the Era of Experience에서는 인공지능이 이제 새로운 전환점을 맞이했다고 말합니다.
ChatGPT에서 뽑은 요약본입니다.
이 논문은 AI 발전이 이제 인간 데이터 기반 학습에서 벗어나, ‘경험’을 통한 자율 학습 중심으로 전환되어야 한다고 주장합니다.
LLM(대형 언어 모델)들은 인간 데이터 기반 학습을 통해 광범위한 작업을 수행하게 되었지만,
수학, 코딩, 과학 등의 영역에서는 인간 지식만으로는 한계에 도달해가고 있음.
인간 지식 기반 학습만으로는 새로운 발견이나 초인간적 성능은 달성하기 어려움.
자율적인 상호작용을 통해 AI가 스스로 경험을 축적하고 학습하는 방식이 중요해짐.
예: AlphaProof는 기존 10만 개 수학 증명을 학습한 후, 스스로 1억 개 증명을 생성해 IMO 수상 수준에 도달.
인간처럼 긴 시간에 걸쳐 누적되는 경험을 기반으로 학습하고 개선.
예: 건강 모니터링 AI는 수개월 간 웨어러블 데이터를 분석해 맞춤형 피드백 제공.
인간과의 텍스트 상호작용에 국한되지 않고, 디지털 및 물리 세계를 직접 조작함.
예: 원격 망원경 조작, 실험 장비 제어 등.
기존에는 인간 평가자 기준으로 보상을 제공했지만,
이제는 실제 환경에서 측정된 수치(건강, 성능, 생산성 등) 기반 보상으로 대체.
보상 함수도 사용자 피드백을 반영해 적응 가능해야 함.
단순한 언어 추론에서 벗어나, 세계 모델(world model)을 구축해 행동의 결과를 예측하고 계획 수립.
예: 체력 향상을 위해 다양한 옵션의 미래 결과를 시뮬레이션.
과거 시뮬레이션 기반 RL(알파고 등)은 뛰어난 성과를 보였지만, 실제 세계에는 적용하기 어려움.
LLM의 부상은 일반화에는 성공했지만, 자율성 및 새로운 지식의 발견 능력은 부족.
최근에는 LLM과 RL을 융합하여 실제 환경과 상호작용하는 자율 에이전트의 기반이 마련됨.
맞춤형 건강/교육/과학 에이전트의 출현.
자율적인 과학 실험을 통한 기술 및 의학의 급속한 발전.
일자리 대체, 해석 가능성 감소, 통제 어려움.
하지만, 경험 기반 AI는 변화 감지 및 자가 수정 가능성 등 안전 측면에서도 유리할 수 있음.
경험의 시대는 인간 데이터의 한계를 뛰어넘는 초인간적 AI 능력의 열쇠가 될 수 있습니다. 이 시대는 자율성, 지속적 학습, 현실 기반 보상, 비인간적 사고 체계를 결합한 AI를 탄생시킬 것입니다.
NotebookLM에서 뽑은 FAQ입니다.
1. 인간 데이터 시대와 경험 시대의 주요 차이점은 무엇이며, 왜 경험 시대로의 전환이 중요하다고 보는가? 인간 데이터 시대의 AI는 방대한 양의 인간이 생성한 데이터를 학습하고 인간 전문가의 예시와 선호도에 맞춰 미세 조정하는 데 중점을 두었습니다. 이는 다양한 분야에서 상당한 발전을 이루었지만, 수학, 코딩, 과학 등 핵심 영역에서는 인간 지식의 한계에 빠르게 도달하고 있으며 새로운 혁신은 인간의 이해 범위를 넘어섭니다. 반면, 경험 시대의 AI는 스스로 환경과 상호작용하며 생성하는 데이터를 통해 지속적으로 학습하고 발전합니다. 이러한 전환은 인간 지식의 한계를 넘어 진정으로 초인적인 지능을 달성하고, 인간이 미처 발견하지 못한 새로운 통찰력과 해결책을 찾아낼 수 있는 잠재력을 열어주기 때문에 중요합니다.
2. 경험 시대의 AI 에이전트는 어떤 특징을 가지게 되며, 현재의 AI 시스템과 어떻게 다를까? 경험 시대의 AI 에이전트는 다음과 같은 주요 특징을 가집니다. 첫째, 짧은 상호작용이 아닌 지속적인 경험의 흐름 속에서 존재하며 학습합니다. 둘째, 인간과의 대화뿐만 아니라 환경과의 풍부한 상호작용을 통해 행동하고 관찰합니다. 셋째, 인간의 주관적인 판단이 아닌 환경 자체에서 발생하는 보상을 기반으로 학습합니다. 넷째, 인간의 사고방식에 국한되지 않고 경험을 바탕으로 계획하고 추론합니다. 이는 현재의 AI 시스템이 주로 인간 데이터에 의존하고, 단발적인 상호작용에 초점을 맞추며, 인간이 정의한 보상에 따라 학습하는 것과 뚜렷한 차이점입니다.
3. 경험 시대의 AI는 어떻게 보상을 획득하고 활용하게 될까? 인간 피드백의 역할은 어떻게 변화할까? 경험 시대의 AI는 인간의 주관적인 평가가 아닌 환경 자체에서 발생하는 '접지된 보상(grounded rewards)'을 통해 학습합니다. 이는 비용, 오류율, 생산성, 건강 지표, 과학적 측정 등 다양한 형태를 가질 수 있습니다. 인간 피드백은 여전히 중요할 수 있지만, 에이전트의 행동 결과에 대한 사용자의 만족도와 같이 환경에 기반한 형태로 제공될 수 있습니다. 또한, 사용자의 목표에 따라 다양한 접지된 신호를 선택하거나 결합하여 보상 함수를 유연하게 조정하는 방법도 가능합니다. 이는 소량의 인간 데이터가 광범위한 자율 학습을 촉진할 수 있음을 시사합니다.
4. 경험 시대의 AI는 계획 및 추론 방식을 어떻게 변화시킬까? 인간적인 사고방식의 한계는 어떻게 극복될 수 있을까? 현재의 AI는 인간의 사고 과정을 모방하는 방식으로 계획하고 추론하는 경향이 있지만, 경험 시대의 AI는 인간 언어라는 제약에서 벗어나 경험으로부터 스스로 학습하여 더 효율적인 추론 메커니즘을 발견할 수 있습니다. 또한, 실제 세계와의 상호작용을 통해 얻은 데이터를 기반으로 사고를 접지(grounding)함으로써 인간 데이터에 내재된 오류나 편향을 극복하고, 현재의 인간 지식으로는 상상할 수 없는 새로운 원리를 발견할 수 있습니다. '세계 모델(world model)'을 구축하여 자신의 행동이 환경에 미치는 영향을 예측하고 계획하는 방식도 중요해질 것입니다.
5. 경험 학습(Reinforcement Learning)은 과거에 어떤 역할을 했으며, 왜 인간 데이터 시대에 그 중요성이 감소했을까? 경험 시대에 RL은 어떻게 다시 부상할 것으로 예상되는가? 강화 학습(RL)은 과거에 시뮬레이션 환경에서 명확한 보상 신호가 주어졌을 때 게임, 로봇 조작, 자원 관리 등 다양한 복잡한 작업을 마스터하는 데 성공적인 역할을 했습니다. 하지만 현실 세계의 개방적인 문제와 다양하고 명확하지 않은 보상에 대한 해결책이 부족했고, 인간 데이터 시대에 방대한 양의 인간 데이터를 활용한 AI가 더 넓은 범위의 능력을 보여주면서 RL의 중요성은 상대적으로 감소했습니다. 경험 시대에는 에이전트가 실제 세계에서 자율적으로 행동하고 관찰하며, 다양한 접지된 보상을 통해 학습할 수 있게 되면서 RL의 핵심 원리가 다시 주목받고 발전할 것으로 예상됩니다. 장기적인 경험 스트림, 접지된 보상, 실질적인 탐색, 세계 모델링, 시간적 추상화 등 RL의 핵심 개념들이 이 시대의 도전을 해결하는 데 중요한 역할을 할 것입니다.
6. 경험 시대의 AI가 가져올 긍정적 및 부정적 결과는 무엇이라고 예상되는가? 긍정적인 측면으로는 개인 맞춤형 비서, 과학적 발견 가속화 (신소재, 신약 개발 등), 생산성 향상 등을 꼽을 수 있습니다. AI가 장기적인 문제 해결, 혁신, 실질적인 결과에 대한 깊은 이해와 같은 인간 고유의 영역으로 여겨졌던 능력까지 갖추게 될 수 있습니다. 반면, 일자리 감소, 자율적인 장기 목표 추구로 인한 잠재적 오용 위험 증가, AI 시스템의 해석 어려움 증가 등의 부정적인 결과도 예상됩니다.
7. 경험 시대의 AI 발전에 따른 안전성 문제는 어떻게 다루어질 수 있을까? 경험 학습 자체가 제공할 수 있는 안전성 이점은 무엇인가? 경험 시대 AI의 안전성 문제는 인간의 개입 기회 감소와 해석의 어려움 증가로 인해 더욱 중요해집니다. 하지만 경험 학습 자체도 몇 가지 안전성 이점을 제공할 수 있습니다. 첫째, 환경 변화에 적응하고 부적응을 방지할 수 있습니다. 둘째, 보상 함수를 경험을 통해 조정하여 오정렬 문제를 점진적으로 해결할 수 있습니다. 셋째, 물리적 경험에 의존하는 발전은 실제 세계에서의 행동 및 결과 관찰에 시간이 소요되므로 AI 자체 개선 속도에 자연적인 제동 장치가 될 수 있습니다.
8. 경험 시대 AI의 궁극적인 목표와 잠재력은 무엇이라고 보는가? 경험 시대 AI의 궁극적인 목표는 인간 데이터의 한계를 넘어 진정으로 초인적인 능력을 달성하는 것입니다. 에이전트가 스스로 환경과 상호작용하며 얻는 풍부한 경험 데이터를 통해 인간 지식으로는 미처 도달하지 못했던 새로운 영역을 탐구하고 혁신적인 해결책을 제시할 수 있을 것으로 기대됩니다. 이는 다양한 분야에서 전례 없는 발전과 변화를 가져올 잠재력을 가지고 있으며, 궁극적으로 인간의 능력을 뛰어넘는 새로운 지능의 시대를 열게 될 것입니다.
저는 AI 에이전트, MCP, 바이브코딩의 등장으로 인해 기존의 전통적인 소프트웨어와 SaaS 모델의 유효성이 점차 약화될 수 있다고 보고 있습니다. 이제 소프트웨어는 필요할 때 즉석에서 만들어 사용하는, 더 나아가 일회용으로 소비되는 형태로도 전환될 수 있습니다. 그러면 앞으로 어떻게 적응하며 살아가야 할지 고민하던 중, 이 논문을 통해 더 크고 넓은 시야로, 긴 호흡의 미래를 상상해야겠다는 생각이 들었습니다.
강화학습의 선구자들이 쓴 논문이라는 점을 감안해야겠지만, ‘경험의 시대(The Era of Experience)’에 가장 잘 어울리는 회사는 어디라고 생각하시나요? 혹시 이 논문을 읽고 새로운 창업 아이디어가 떠오르시나요?
https://youtu.be/zzXyPGEtseI?si=1bGRVm0O2MMj9g1n