강화학습 — 오답도 데이터다

Mar 8. 2026

아이가 걷는 법을 배우는 과정을 본 적 있는가.

일어선다. 넘어진다. 또 일어선다. 또 넘어진다. 울다가 다시 일어선다. 벽을 잡고 한 발짝 뗀다. 넘어진다. 소파를 잡고 두 발짝 뗀다. 넘어진다. 어느 날 세 발짝을 넘어지지 않고 걷는다. 부모가 환호한다. 아이가 웃는다. 네 발짝. 다섯 발짝. 넘어진다. 다시 일어선다.

아무도 아이에게 걷는 법을 가르치지 않는다. 교과서도 없고, 매뉴얼도 없다. 아이는 시도하고, 실패하고, 그 결과를 몸으로 기억하면서 걷는 법을 익힌다. 넘어지면 아프다. 걸으면 엄마에게 갈 수 있다. 이 두 가지 피드백만으로 인간은 직립보행이라는 기적을 달성한다.

AI에는 이것과 정확히 같은 방식으로 학습하는 알고리즘이 있다. 강화학습(Reinforcement Learning).

강화학습의 구조는 놀라울 만큼 단순하다. 등장인물은 셋이다.

에이전트(Agent): 학습하는 주체. 아이.

환경(Environment): 에이전트가 놓인 세상. 거실 바닥.

보상(Reward): 행동의 결과로 받는 피드백. 걸으면 +1, 넘어지면 -1.

에이전트는 환경에서 행동을 취한다. 환경은 그 행동에 대한 보상을 돌려준다. 에이전트는 보상을 바탕으로 다음 행동을 조정한다. 이것을 수만 번, 수십만 번 반복한다. 그게 전부다.

교사가 없다. 정답지가 없다. "이렇게 해라"라고 알려주는 사람이 없다. 있는 건 오직 행동 결과 조정의 루프뿐이다.

이 단순한 구조로 AI는 바둑 세계 챔피언을 이겼다. 알파고(AlphaGo)는 수백만 번의 대국을 스스로 두면서, 이기는 수에는 양의 보상을, 지는 수에는 음의 보상을 받았다. 아무도 알파고에게 바둑의 정석을 가르치지 않았다. 알파고는 오답을 통해 정답을 찾았다.

여기서 핵심적인 통찰이 하나 나온다.

강화학습에서 오답은 쓸모없는 것이 아니다. 정답만큼 중요한 데이터다.

에이전트가 왼쪽으로 갔는데 보상이 -10이었다. 이것은 실패다. 하지만 이 실패는 "왼쪽은 나쁜 방향이다"라는 정보를 준다. 이 정보가 없으면 에이전트는 왼쪽을 다시 갈 수도 있다. 오답이 탐색 공간을 줄여주는 것이다. 100개의 선택지 중 30개가 오답임을 확인했다면, 남은 선택지는 70개로 좁혀진다.

더 깊이 들어가면, 오답은 단순히 '이건 아니다'를 알려주는 것 이상의 역할을 한다. 어떤 오답은 정답의 윤곽을 드러낸다.

바둑에서 알파고가 패배한 대국들을 분석해보면, 그 패배의 패턴 안에 이후 승리의 실마리가 들어 있었다. "이 포석에서 이 수를 두면 중반에 무너진다"는 오답이, "그러면 이 포석에서는 다른 수를 둬야 한다"는 정답으로 자연스럽게 연결된다. 오답은 정답의 네거티브 필름이다. 충분한 오답이 쌓이면, 정답의 형태가 저절로 드러난다.

인간에게 이 원리를 적용하면, 우리가 '실패'라고 부르는 것의 의미가 완전히 달라진다.

창업을 했다. 망했다. 이것은 실패인가?

강화학습의 관점에서, 이것은 하나의 에피소드(episode)가 끝난 것이다. 게임 한 판이 끝난 것이지, 게임 자체가 끝난 게 아니다. 이 에피소드에서 에이전트(당신)는 엄청난 양의 데이터를 수집했다. 어떤 시장에 진입하면 안 되는지. 어떤 파트너와 일하면 문제가 생기는지. 어떤 시점에 피봇해야 했는지. 이 데이터는 다음 에피소드에서 사용된다.

알파고는 바둑을 마스터하기까지 수백만 판을 졌다. 한 판 한 판 질 때마다 "이 AI는 바둑에 재능이 없다"고 평가한 사람은 없다. 학습 중이라는 걸 알았으니까. 하지만 인간이 한 번 실패하면? "나는 이걸 할 능력이 없나 봐." 한 번의 에피소드로 전체 게임을 포기한다.

강화학습 에이전트와 인간의 가장 큰 차이는 능력이 아니라 실패를 해석하는 방식이다. 에이전트는 실패를 데이터로 처리한다. 인간은 실패를 정체성으로 처리한다. "이 방향은 보상이 낮았다"가 아니라 "나는 부족한 사람이다"로 받아들인다. 데이터가 자아를 공격하는 것이다.

강화학습에는 보상 희소성(Reward Sparsity)이라는 악명 높은 문제가 있다.

어떤 환경에서는 보상이 아주 드물게 주어진다. 미로를 탈출하는 에이전트를 상상해보자. 출구에 도달해야만 +100의 보상을 받는다. 출구에 도달하기 전까지는 어떤 행동을 해도 보상이 0이다. 왼쪽으로 가도 0, 오른쪽으로 가도 0, 뒤로 가도 0. 에이전트는 자기가 잘하고 있는지 못하고 있는지 알 수 없다.

인생이 정확히 이렇다.

소설을 쓰고 있다. 6개월째 쓰고 있는데, 아무도 읽어주지 않는다. 보상이 0이다. 잘 쓰고 있는 건지, 방향이 맞는 건지, 아무런 피드백이 없다. 운동을 시작했다. 한 달이 지났는데 체중계 숫자가 똑같다. 보상이 0이다. 이직 준비를 한다. 이력서를 10개 보냈는데 답이 없다. 보상이 0이다.

이 보상 부재의 구간에서 대부분의 사람은 포기한다. "아무 변화가 없잖아. 소용없나 봐."

하지만 강화학습 연구자들은 이 문제를 해결하는 방법을 알고 있다. 내적 보상(Intrinsic Reward)이다.

외부에서 보상이 오지 않을 때, 에이전트 스스로 보상을 만들어내는 방법이다. 가장 대표적인 것이 호기심 기반 보상(Curiosity-Driven Reward)이다. 에이전트가 처음 보는 상태에 도달하면, 외부 보상이 없어도 내부적으로 작은 보상을 준다. "새로운 곳에 왔다 +1." 이것만으로 에이전트는 미로를 탐색할 동기를 얻는다. 출구를 찾기 전에도, 새로운 복도를 발견하는 것 자체가 보상이 된다.

인간에게 이것은 뭘까.

소설을 6개월째 쓰고 있다. 아무도 안 읽어준다. 하지만 어제 쓴 문장 중 하나가 마음에 든다. 그 문장을 쓰기 전에는 쓸 수 없었던 문장이다. 내가 6개월 전과 달라졌다는 증거다. 이것이 내적 보상이다.

운동을 한 달 했다. 체중은 안 변했다. 하지만 계단을 올라갈 때 숨이 덜 찬다. 일주일 전에는 5층에서 헉헉댔는데, 오늘은 7층까지 괜찮다. 체중계가 보상을 주지 않아도, 계단이 보상을 준다.

이력서 10개에 답이 없다. 하지만 10번째 이력서는 1번째보다 확실히 낫다. 자기소개서가 더 구체적이고, 경력 기술이 더 날카롭다. 이 변화 자체가 데이터이고, 내적 보상이다.

외부 보상이 올 때까지 버틸 수 있게 해주는 것은 의지력이 아니다. 내가 변하고 있다는 감각이다. 강화학습 에이전트가 호기심으로 미로를 탐색하듯, 우리도 성장의 감각으로 보상 없는 구간을 건널 수 있다.

강화학습에서 가장 아름다운 개념 중 하나가 있다. 정책(Policy)이다.

정책이란, 에이전트가 특정 상황에서 어떤 행동을 취할지 결정하는 규칙이다. 처음에 에이전트의 정책은 엉망이다. 무작위에 가깝다. 하지만 수많은 에피소드를 거치면서 — 수많은 성공과 실패를 거치면서 — 정책이 조금씩 다듬어진다. 이 상황에서는 이렇게, 저 상황에서는 저렇게. 점점 더 나은 행동을 선택하는 규칙이 만들어진다.

중요한 것은, 좋은 정책은 한 번도 실패하지 않는 정책이 아니라는 것이다. 좋은 정책은 실패를 빠르게 감지하고, 빠르게 조정하는 정책이다. 알파고의 정책도 가끔 악수를 둔다. 하지만 악수를 뒀다는 걸 빠르게 파악하고, 다음 수에서 보정한다. 완벽한 행동이 아니라 빠른 복구가 좋은 정책의 조건이다.

당신의 인생의 정책은 어떤가. 실패하지 않는 것을 목표로 하고 있는가? 그렇다면 당신의 정책은 매우 보수적일 것이다. 확실한 것만 고르고, 익숙한 것만 반복하고, 위험을 피한다. 안전하지만, 더 나은 정책으로 업데이트될 기회가 없다.

아니면, 실패해도 빠르게 다음 행동으로 넘어가는 것을 목표로 하고 있는가? 그렇다면 당신의 정책은 매 에피소드마다 업데이트된다. 실패할 때마다 데이터가 쌓이고, 데이터가 쌓일 때마다 정책이 정교해진다.

강화학습의 창시자 중 한 명인 리처드 서튼은 이렇게 말했다.

"강화학습에서 가장 중요한 것은 에이전트가 환경과 직접 상호작용한다는 것이다. 교과서에서 배우는 것이 아니라, 경험에서 배운다."

교과서에서 배우는 학습을 지도학습(Supervised Learning)이라고 한다. 정답이 주어진 데이터로 배우는 것. 학교 교육이 이것이다. 선생님이 문제와 답을 준다. 학생은 패턴을 외운다. 효율적이지만, 정답지에 없는 문제는 풀 수 없다.

강화학습은 다르다. 정답지가 없다. 스스로 부딪히고, 스스로 피드백을 수집하고, 스스로 정책을 만든다. 느리고, 비효율적이고, 수없이 넘어진다. 하지만 이렇게 만들어진 정책은 교과서에서 배운 어떤 규칙보다 유연하고 강하다. 환경이 바뀌어도 적응할 수 있기 때문이다.

인생의 가장 중요한 것들 — 관계를 맺는 법, 실패에서 일어서는 법, 자기 자신을 이해하는 법 — 은 교과서에서 배울 수 없다. 오직 직접 부딪혀서, 오답이라는 데이터를 모아서, 나만의 정책을 만들어가야 한다.

넘어졌는가? 축하한다. 데이터가 하나 늘었다.

다시 일어서라. 에이전트는 멈추지 않는다.

keyword

Brunch Book