AI는 어떻게 스스로 학습하는가
AI가 그냥 주어진 데이터만 처리하는게 아니라
스스로 시행 착오를 겪으면서 배우고
심지어는 우리 인간보다 더 뛰어난 전략을 찾아낸다면 어떨 거 같으세요?
이 무슨 공상과학 소설 같은 얘기냐고요?
아니요. 이게 바로 '강화학습'의 세계입니다!
강화학습, 이름만 들으면
좀 어렵게 느껴질 수 있습니다. 근데, 사실 이 개념 우리한테 아주 익숙한 원리에서 시작된 거예요.
바로 당근과 채찍입니다.
강아지 훈련시키는 걸 한 번 떠올려 보세요.
"앉아!" 했는데 강아지가 잘 앉으면?
그렇죠. 간식을 주잖아요. 이게 바로 당근이죠.
강화학습도 똑같습니다.
AI가 어떤 행동을 했을 때 "어, 이거 잘했네" 싶으면 보상이라는 간식을 주는 거예요.
반대로 잘못하면 패런티를 주고요.
이 아주 간단한 원리가 바로 강화학습의 핵심입니다.
그럼 AI의 세계에서는 이 당근과 채찍, 그러니까 보상과 페널티가 대체 어떻게 작동하는 걸까요?
그 핵심적인 순환 구조를 들어다보면,
마치 끝없이 돌아가는 하나의 사이클과 같습니다.
첫째, AI. 이걸 우리가 에이전트라고 부를게요. 이 에이전트가 어떤 행동, 즉 액션을 취합니다.
둘째, 그 행동 때문에 주변 환경이 바뀌겠죠.
그럼 셋째, 그 결과에 따라서 에이전트는 보상을 받거나 아니면 페널티를 받아요.
마지막으로 넷째, 이 경험을 토대로 "아, 다음엔 이렇게 해야겠다" 하고 다음 행동을 수정하는 거죠.
행동 → 상태변화 → 보상/페널티 → 학습
이 네 단계가 계속 정말 계속 반복되면서 AI가 점점 더 똑똑해지는 겁니다.
근데 여기서 진짜 중요한 포인트가 있어요. AI가 그냥 눈앞에 작은 간식 하나에 만족하는게 아니라는 거예요.
예를 들어, 체스를 두는데 당장 상대방 졸 하나 잡는 것이 중요한게 아니잖아요. 게임 전체를 이기기 위한
큰 그림을 그려야죠. 강화학습의 목표도 바로 이겁니다.
단기적인 보상이 아니라 장기적으로 봤을 때 누적되는 보상을 최대로 만드는 것.
이게 핵심이에요.
그러다 보니까 AI가 항상 딜레마에 빠지게 돼요.
자, 점심 시간이라고 생각해 보세요. 어제 갔던 그 맛집, 실패할 확률 제로인 그곳에 또 갈 것인가?
이걸 '활용'이라고 해요.
아니면,
"에이, 오늘은 새로운 곳에 한 번 가 볼까?" 하고 모험을 할 것인가?
이걸 '탐험'이라고 합니다. 탐험은 실패할 수도 있지만 대박 맛집을 찾을 수도 있잖아요. AI도 마찬가지예요.
이 활용과 탐험 사이에서 어떻게 줄타기를 잘하느냐가 최고의 전략을 찾는 열쇠가 되는 거죠.
강화학습이 현재 어떻게 쓰이는지 볼까요?
아주 재미있는 예시부터 시작해 볼게요. 바로 비디오 게임입니다.
비디오 게임은 강화학습에게는 정말 최고의 훈련장이에요. 왜냐하면 실패해도 괜찮으니깐요.
생각해 보세요. AI는 지치지도 않고 잠도 안 자고
수백만 수천만 판의 게임을 그냥 몇 시간 만에 해치워 버립니다.
그 과정에서 우리 인간 플레이어들은 생각지도 못했던 기상천외한 전략들을 스스로 깨우치게 되는 거죠.
여기서 아까 말씀드렸던 장기적인 보상의 개념이 다시 등장합니다.
AI가 그냥 점수만 따려고 하는 게 아니에요. 때로는 일부러 점수를 좀 잃더라도 나중에 게임 전체를 뒤집을 수 있는 엄청난 아이템을 얻기 위해
기다리는 그런 복잡한 전략을 구사한다는 거죠.
와, 이건 뭐 거의 프로게이머 수준 아닌가요?
근데 이게 단순히 게임에서만 끝나는 얘기가 아닙니다. 이 기술은 이미 게임 화면을 넘어서서 우리가 사는 현실 세계 시스템까지 깊숙히 들어와 있어요.
자율주행차를 생각해 볼까요?
사람이 운전 배울 때처럼 실제 도로에서 사고 내면서 배울 수는 없으니까 AI는 어떻게 하냐면,
실제랑 똑같이 만든 가상도시에서 수백만 수천만 km를 운전합니다.
시뮬레이션 안이니, 사고가 나도 괜찮고
갑자기 아이가 튀어나오는 상황, 폭우가 쏟아지는 상황, 온갖 위험한 시나리오를
안전하게 경험하면서 운전을 배우는 겁니다.
바로 여기서 개발자들의 진짜 고민이 시작됩니다.
좋은 운전이란 대체 뭘까요?
그냥 빨리 가는 거 아니면, 절대 사고 안 나는 거?
그것만은 아니죠.
승차감도 좋아야 하고 연비도 생각해야 하고 교통법교도 다 지켜야 하잖아요.
이 모든 것들의 균형을 맞춘 보상규칙,
이것을 '보상함수'라고 하는데
이 규칙을 얼마나 정교하게 설계하느냐에 자율주행차의 미래가 달려 있다고 해도 과언이 아닙니다.
이제 강화 학습이 얼마나 엄청난 잠재력을 가졌는지, 전 세계에 제대로 보여준
정말 게임 체인저라고 할 수 있는 두 가지 사례를 살펴보겠습니다.
바로, 알파고와 ChatGPT입니다.
알파고 다들 기억하시죠?
알파고의 학습법은 정말 기가 막힙니다! 처음에는 인간 최고수들의 바둑 기보, 그러니까 족보를
수만 개 보면서 기본을 배웠어요.
모범생처럼 공부한 거죠. 이것이 1단계.
진짜는 2단계부터입니다. 자기 자신이랑 바둑을 두기 시작하는데
한 번, 두 번이 아니라 수백만, 수천만 번을 둡니다.
이 과정에서 인간이 한 번도 둬본 적 없는 완전히 새로운 바둑의 길을 스스로 개척합니다.
이것이 가능했던 이유는 알파고는 인간처럼 정석이라거나
"이 수는 왠지 별로인 것 같은데" 하는 고정 관념이 전혀 없었기 때문입니다.
알파고의 목표는 오직 하나.
'승리'라는 보상을 얻는 것.
그 목표를 향해서 가장 효율적인 길을 찾다 보니, 수천 년 동안 이어져온 인간의 바둑 이론을 뛰어넘는
창의적인 수를 두게 된 겁니다.
말 그대로 바둑의 신이 된 거죠.
알파구가 바둑의 세계를 정복했던 이 강력한 아이디어 이게 이제는 언어의 세계로 넘어왔습니다.
바로 우리가 매일같이 쓰고 있는 ChatGPT 이야기인데요.
ChatGPT가 어떻게 그렇게 똑똑하고 유용하고, 또 안전한 답변을 할 수 있게 됐을까요?
비밀의 열쇠는 바로, '인간 피드백 기반 강화학습'.
줄여서 RLHF라는 기술에 있습니다.
이 RLHF가 어떻게 작동하냐, 아주 간단해요, 먼저 개발자들이 AI가 만든 여러 답변들을
사람들한테 보여 주고
"어떤 답변이 더 마음에 드세요?" 하고 물어봐요.
순위를 매기게 하는 거죠.
그럼 AI는 이 순위 데이터를 보고 "아, 사람들은 이런 스타일의 답변을 좋아하는구나" 하고 학습해서
일종의 채점 기준 모델을 만듭니다. 이걸 '보상 모델'이라고 해요.
그다음부터는 원래의 ChatGPT가 이 보상 모델한테 높은 점수를 받기 위해서
답변을 계속 고쳐 나가는 거예요.
그러니까 결국 우리가 누르는 '좋아요, 싫어요'가 ChatGPT를 가르치는 선생님 역할을 하는 셈이죠.
정말 신기하지 않나요?
강화학습에 대해 살펴봤는데요. 그럼 이 모든 이야기들이 우리에게 말해 주는 건 뭘까요?
어떤 의미가 있을까요?
결국 강화학습의 본질을 한 문장으로 말하자면 이거예요.
정답이 딱 정해져 있지 않은 복잡한 세상에서
명확한 목표를 향해 끊임없이 부딪쳐보고
실패하면서 배우고 결국에는 최적의 길을 스스로 찾아내는 것
능동적인 학습 과정, 그 자체입니다.
이게 왜 그렇게 중요하냐면, 기존의 AI가 주로 주어진 데이터를 분석하는 데에 그친 반면에
강화학습은 AI에게 진짜 문제 해결 능력을 부여하기 때문입니다.
교과서가 없는 현실 세계의 문제들을 스스로 풀어 나가게 만드는 AI 혁신의 핵심 엔진이라고 할 수 있죠.
이제 마지막으로 여러분께 질문 하나를 던지면서 마무리하고 싶습니다.
만약 여러분이 이 강화학습의 원리를 여러분의 삶에 적용한다면 어떨까요?
예를 들어 새로운 언어를 배우거나 운동 습관을 만드는 목표를 세웠다고 해보죠.
여러분의 목표 달성을 위해
여러분만의 보상 함수를 어떻게 설계하시겠어요?
어떤 행동에 보상을 주고, 어떤 실패를 학습의 과정으로 받아들이시겠습니까? :)