brunch

강화학습이 알려준 삶의 태도

어떻게 살아야 하는가에 대한 석학의 대답

by 김윤서

본 글은 Jason Wei의 에세이 Life lessons from reinforcement learning을 번역한 글입니다. Jason Wei는 OpenAI에서 Chain-of-Thought 연구를 주도한 연구자로, ChatGPT o1 계열의 Reasoning 모델과 RL 기반 학습 기법을 꾸준히 연구해 온 AI 연구자입니다.


가능하시다면 꼭 원문을 읽으시길 추천드립니다. (원문)




지난 1년 동안 대부분의 깨어 있는 시간 동안 강화학습에 대해 생각하다 보니, 내 삶을 어떻게 살아가야 하는지에 대한 중요한 교훈 하나를 얻게 되었다.


강화학습의 핵심 개념 중 하나는 항상 On-Policy를 유지해야 한다는 것이다. 이는 다른 사람이 만들어놓은 성공 공식을 흉내내기보다는, 스스로 선택하고 행동하여 환경이 주는 보상을 통해 배워야 한다는 것으로 연결된다.


물론 초반에는 모방 학습(Imitation Learning)이 필요하다. 이는 학습 초기의 반복되는 실패를 벗어나는 데 유용하다. 하지만 어느 정도 스스로 그럴듯한 경로를 만들 수 있게 되면, 일반적으로 강화학습에서는 굳이 모방 학습을 하지 않는다. 모델이 가진 고유한 강점을 제대로 활용하기 위해서는, 모델이 직접 만든 경험만으로 학습하는 편이 훨씬 좋기 때문이다.


실제로도, 인간이 작성한 Chain-of-Thought을 그대로 학습하는 지도학습보다 강화학습이 수학 문제 해결 능력을 더 잘 끌어올린다는 것은 이미 널리 알려진 사실이다.


언어 모델이 수학 문제를 해결하도록 학습시킬 때, 답을 내놓기 전에 사고 과정을 서술하는 Chain-of-Though 기법을 사용한다. 이는 문제에 대한 답만 단순히 내놓기보다, 풀이 과정을 적으며 수학 문제를 푸는 것으로 비유할 수 있다. 이때 인간의 풀이 과정을 제시해 주고 이를 직접 학습하는 지도 학습보다, 답의 올바름만 알려주고 풀이 과정은 직접 찾는 강화학습이 더욱 효과적이다.


우리의 삶도 마찬가지다. 우리는 처음에 학교라는 환경 속에서 누군가 이뤄놓은 성공 방식을 통해 성장한다. 이를 통해 첫 기반을 닦는 것은 아주 자연스럽고 합리적이다. 하지만 나는 학교를 졸업한 후에도 계속 다른 사람이 성공한 방법을 연구하고 그들을 따라 하려 했다. 때로는 효과가 있었지만, 결국 남을 따라 해서는 절대로 그 사람을 뛰어넘을 수 없다는 사실을 깨달았다. 그들은 내가 갖지 못한 강점을 활용하고 있었기 때문이다.


예를 들어, 어떤 연구자는 코드베이스를 처음부터 직접 구축해 온 덕에 나보다 훨씬 빠르게 여러 실험을 시도할 수 있었다. 코드베이스를 직접 구축하지 않아 이해도가 깊지 않은 나는 그럴 수 없다. 또한 축구 선수는 내가 갖지 못한 신체 능력을 활용해 플레이한다.


남의 틀을 따라가는 것에는 한계가 있다. 스스로의 강점과 약점을 기반으로 선택하고 행동할 때 비로소 그 한계를 넘어 더 멀리 갈 수 있다. 환경이 주는 리스크와 보상을 내가 직접 감당하면서 말이다. 이것이 강화학습의 On-Policy가 주는 교훈이다.


예컨대 나는 보통의 연구자보다 두 가지를 훨씬 좋아한다.

1. 많은 데이터를 읽는 것

2. 시스템의 구성 요소를 하나씩 뜯어보며 뭐가 실제로 작동하는지 확인하는 것


한 번은 데이터셋을 만들 때 며칠 동안 라벨러들이 만드는 데이터를 직접 읽고, 그들에게 일일이 피드백을 남겼다. 그렇게 공들인 뒤에야 비로소 데이터 품질이 확 좋아졌고, 내가 풀어야 하는 문제의 핵심도 선명하게 보였다. 올해 초에는 Deep Research를 연구하며 깊게 고민하지 않고 지나갔던 결정들을 전부 다시 꺼내 검증했다. 거의 한 달을 그 작업에만 온전히 쏟았다. 시간은 많이 들었지만, 그 실험들을 통해 어떤 형태의 강화학습이 실제로 제대로 작동하는지에 대한 나만의 감각을 얻게 되었다.


무엇보다 이런 방식이 훨씬 더 즐거울뿐더러,

지금은 내 강점을 기반으로 나만의 영역을 만들어가고 있다는 느낌이 든다.


요약하자면,

1. 초반엔 모방이 필요하다. 누구나 그렇게 시작한다.

2. 하지만 어느 정도 기반이 갖춰진 뒤에도 계속 남을 따라 하면 성장은 거기까지다.

3. 스스로의 강점을 기반으로 선택하고 행동할 때, 비로소 자신만의 성장 공선을 만들 수 있다.


keyword
작가의 이전글시대의 결론