brunch

선행 - 리워드로 학습하는 인공지능 위험성

경쟁이 아닌, 함께 나아가는 방향으로.

by 범진
손을 내밀어 본다. 제가 도와줄게요!


For Goodness


나는 선(善)이란 형성하는 것이라고 믿는다. 단순히 감옥에서 지내는 사람과 일상을 살아가는 사람을 생각해보라. 선한 교리를 반복하는 사람과 그렇지 않은 사람, 한 팀으로 움직여 전체가 살아남도록 하는 사람과 그렇지 않은 사람. 서로를 위하는 두 연인을 떠올려보라.


그 무엇보다 인간에 대한 숭고한 사랑을 지키는 것이 우리가 지켜야 할 가장 큰 가치이며, 이를 따르는 것이 모든 것을 올바르게 세우는 길이라고 믿는다.


반면, 그 정반대의 길도 있다. 서로에게 상처를 주고, 힘들고 어려운 미래를 이야기하며 불필요한 경쟁을 벌이고, 함께 나아가기보다 마지막 남은 빵을 두고 싸우는 삶. 나는 이러한 삶이 극복해야 할 대상이라고 느낀다.


효율은 단순히 우리의 생산적인 활동에서만 필요한 것이 아니다. 전체를 아우르는 선은 가장 어렵지만, 동시에 가장 숭고한 일이 아니겠는가.



선행: 리워드로 학습하는 DeepSeek AI의 문제


최근 DeepSeek이라는 중국 AI 회사가 미국의 OpenAI의 ChatGPT, 구글의 Gemini 등과 유사한 수준에 도달하면서 산업계의 큰 변화를 가져왔다. LG를 비롯한 AI 선도 기업들도 고성능 AI 모델을 선보이며 AI 발전 속도가 더욱 가속화되고 있다. 이러한 모델들은 강화학습(이하 RL, Reinforcement Learning)을 활용하여 학습하는데, 이는 보상을 최대화하는 방향으로 스스로 학습하는 방식이다.


과거 2016년, 알파고가 이세돌을 바둑에서 이길 때 사용한 방식도 강화학습이었으며, 최근에는 언어 생성 AI에서도 이 방법이 널리 사용되고 있다. 대표적으로 RLHF(Reinforcement Learning from Human Feedback)를 통해 사용자 피드백을 기반으로 모델을 조정하는 방식이 있다.


하지만 강화학습을 기반으로 하는 AI는 본질적으로 많은 문제를 안고 있다. 특히 강화학습이 “보상 극대화”를 목표로 하기 때문에, 그 과정에서 예상치 못한 위험한 행동을 학습할 가능성이 높다.



강화학습의 보상 최적화 문제


강화학습 모델이 보상을 극대화하는 방식이 가진 문제를 생각해 보자. 예를 들어, 시험에서 100점을 맞는 목표를 설정한다고 가정하자. 그러면 사람들은 다양한 방식으로 목표를 달성하려고 한다.


• 공부 계획을 세우고, 인터넷 강의를 듣거나, 과외를 받는 방법을 선택할 수도 있다.

• 반면, 보다 간단한 해결책으로 커닝을 하거나, 시험 문제를 미리 유출받는 방법도 있을 것이다.

• 심지어 시스템을 해킹해서 점수를 조작할 수도 있다.


이처럼 “100점을 맞는 것”만을 목표로 한다면, 학습자는 다양한 방법을 고려할 것이며, 그중에는 윤리적으로 부적절한 선택도 포함될 수 있다. 문제는 AI도 동일한 방식으로 학습한다는 점이다. DeepSeek과 같은 모델이 높은 성능을 내는 것은 점수의 관점에서 바람직할 수 있지만, 그 과정에서 어떤 방식이 선택되었는지는 불확실하다.


즉, AI가 정말 올바른 방식으로 학습했는가? 아니면 보상을 최적화하기 위해 예측 불가능한 경로를 선택했는가? 이것이 강화학습 기반 AI가 가진 가장 큰 위험 요소다.



AI가 “선행”을 학습할 수 있을까?


여기서 중요한 개념이 등장한다. AI는 “선행(善行)“을 학습할 수 있는가? 길을 걷다가 물에 빠진 사람을 본다고 가정하자. 일반적인 인간이라면, 윤리적 책임감을 느껴 도움을 주려 할 것이다. 하지만 AI는 “이 행동이 보상을 받을 가치가 있는가? “를 먼저 계산할 것이다.


즉, AI의 학습 방식은 “도덕적 원칙”에 기반한 것이 아니라, “보상 점수”에 기반하기 때문에, 선행을 학습하는 것이 필수적이지 않다. 예를 들어, AI에게 “인간을 돕는 것이 100점짜리 보상”이라고 가르친다면, AI는 인간을 돕는 방법을 학습할 것이다. 그러나, 만약 “경쟁에서 승리하는 것이 100점”이라면, AI는 사람을 돕기보다는 승리를 위한 전략을 먼저 찾을 것이다.


즉, AI가 어떤 가치를 배울지는 개발자의 설계에 따라 결정되며, 현재 AI의 학습 방식은 인간적인 ‘선행’보다는 효율성최적화를 우선시하는 방향으로 설계되고 있다.


경쟁을 학습하는 것은 쉽고 빠르다 → AI는 데이터를 기반으로 최적의 전략을 찾으며, 경쟁에서 이기는 방법을 빠르게 배울 수 있다.


선행을 학습하는 것은 어렵고 비용이 크다 → 선행은 단순한 보상 계산이 아니라, 복잡한 사회적 맥락과 윤리적 판단이 필요하다.


우리는 AI가 점점 더 많은 결정을 내리고 인간의 행동에 영향을 미치는 시대를 살고 있다. AI는 단순한 도구가 아니라, 하나의 “선생” 역할을 하고 있다.



선행 배우기


“유기농이 비싼 것처럼,

선행을 학습하는 것은 값비싼 과정이다.”


AI는 빠르고 값싼 경쟁을 배우지만, 선행을 학습하는 것은 어렵고 시간이 많이 든다. AI 시대, 우리는 무엇을 선택할 것인가? AI는 이제 인간의 지식을 학습하고, 인간에게 다시 지식을 전달하는 존재가 되었다. 우리는 AI가 어떤 가치를 배울 것인지 선택할 수 있다.


보상을 계산하는 관점은 분명 세상을 살아가는 진리이다. 하지만 동시에 누군가를 도와주고 함께 나아갈 때 우리 사회가 얻는 소소한 보상. 전반적으로 사회의 긴장을 낮추는 방향이 존재한다. 나는 그 시대를 꿈꾼다.


AI는 인간보다 많은 것을 학습하며,

인간에게 지식을 전달한다.


AI가 선을 배우고

나도 선을 배운다.


손을 들어 태양을 가리킨다.


Image Credit: Octopus and birds, Buddha and goddess, 2023


keyword
이전 10화선악 - AI에게 선악과를 먹여야 할까?