"보상과 처벌"...앨런 튜링의 AI 훈육법

Feb 25. 2026

2025년 인공지능(AI) 뉴스 중에서 가장 주목받은 건 중국 딥시크였다. 중국 인공지능 스타트업이 1월 발표한 딥시크는 저비용 고성능 AI 모델로 '딥시크 쇼크'로 불렸다. 딥시크는 추론 모델 R1을 통해 오픈AI의 챗GPT-4보다 뛰어난 성능을 내면서 미국 빅테크의 AI 모델보다 훨씬 저렴한 비용으로 개발됐다. 딥시크는 R1 개발 비용이 600만 달러 한국 돈으로 87억 원에 불과하다고 발표했다.

조 단위 투자가 당연한 것으로 여겨지던 인공지능 세상에서 저비용은 쇼크 그 자체였다. 더구나 미국과 중국으로 압축된 인공지능 전쟁에서 딥시크의 저비용 모델은 미국의 대중국 반도체 수출 규제 방향을 바꾸는 계기가 됐다. 딥시크는 R1을 비롯해 모든 AI 모델을 대중에 공개해 누구나 자유롭게 바꿔 쓸 수 있게 했다.

딥시크에 담긴 핵심 기술은 강화 학습(reinforcement learning)이다. 딥시크는 사람이 만든 학습 샘플 없이 순수 강화 학습만으로 추론 능력을 키웠다. AI 학습 과정에서 인간의 개입을 크게 줄이면서도 복잡한 문제 해결 능력을 강화했다는 점에서 주목받고 있다.

AI 모델 개발에 있어 핵심은 학습이다. 인간처럼 문자를 인식하고 수학 문제를 풀 수 있는 능력을 키우는 건 오랫동안 풀리지 않은 난제였다. AI 학습은 지난한 과정이었다. A라는 영문자를 인식시키기 위해선 다양한 사람이 자신의 필체로 쓴 예제가 필요했다. AI가 A를 B로 인식했을 때는 잘못됐다는 점을 지적해 줘야 했다. 이 과정에서 받대한 인력 투입이 필요했다. 딥시크는 이 과정을 단순화했다. 정답 여부만 AI에게 알려주고 보상을 주는 강화 학습 방식을 학습에 적용했다. 딥시크는 어린아이가 혼자서 게임을 하면서 문제 풀이에 적응하고 정답을 맞히는 방법을 습득하듯 스스로 문제 해결 과정을 발전시켰다.

딥시크는 미국 수학 경시대회 문제와 국제 코딩 대회 문제에서 우수한 성적을 얻었다. 여기에 문제를 해결하는 과정을 스스로 점검하고 문제 풀이 전략을 바꾸는 모델을 스스로 학습했다. 물론 단점도 있다. 정답이 명확한 문제엔 강하지만 정답이 추상적이거나 주관적이고 모호한 문제엔 딥시크를 적용하기 어려웠다.

딥시크는 강화 학습의 장점을 보여준다. 이런 강화 학습을 처음으로 제안한 이가 바로 앨런 튜링이다. 물론 튜링은 이를 강화 학습이라 부르지 않았다. 그는 학습 이전의 기계장치를 비조직적 기계라 불렀다. 당시엔 컴퓨터란 용어가 탄생하기 전이다. 튜링은 보상과 처벌이란 두 가지 방법을 제시한다. 다음은 튜링의 설명이다.

특정한 형태의 간섭을 허용하는 비조직적 기계들을 대상으로 실험을 해보고 이를 조직화하는 것—예컨대 그것들을 보편적인 기계로 변형하는 것—은 흥미로운 일이다.

기계를 보편 기계로 조직화하는 과정이 극히 적은 수의 입력만으로 이루어질 수 있다면 특히 인상적일 거다. 어린아이를 교육하는 데 있어선 주로 보상과 처벌의 체계에 의존한다. 이는 ‘즐거움’ 또는 ‘보상’을 위한 하나의 입력과 ‘고통’ 또는 ‘처벌’을 위한 또 다른 입력. 이렇게 단 두 개만으로도 이러한 조직화를 수행하는 것이 가능해야 함을 시사한다.

이런 ‘보상–처벌’ 시스템은 매우 다양한 방식으로 만들 수 있다. 여기서 사용할 용어는 일반적인 성격을 지닌 비조직적 기계를 의미한다. 기계의 상태(configuration)는 두 개의 표현식으로 기술되는데, 이를 각각 성격 표현(character-expression)과 상황 표현(situation-expression)이라 부르자.

어느 순간의 성격과 상황은 입력 신호들과 함께 다음 순간의 성격과 상황을 결정한다. 성격은 어느 정도 무작위적인 변화를 겪을 수 있다. 즐거움에 의한 간섭은 성격을 고정시키는 경향, 즉 성격이 변하지 않도록 하는 방향으로 작용한다. 반면 고통 자극은 성격을 교란해 이미 고정된 특징들이 변화하도록 하거나 다시 무작위적 변동의 대상이 되도록 만드는 경향이 있다.

튜링이 제시한 보상-처벌 시스템은 딥시크를 학습시키는 과정에 있어 기초적인 아이디어가 됐다. 놀랍게도 인간 역시 이런 방법으로 어린아이를 교육시킨다. 소리를 지르는 잘못된 행동을 꾸짖는 게 대표적이다. 공손히 인사를 하면 머리를 쓰다듬으며 칭찬한다. 인간과 AI를 보상-처벌이란 단순한 방법으로 교육시킬 수 있다는 건 그 자체로 흥미롭다. 세상엔 다양한 교육법이 존재하지만 따지고 보면 보상-처벌이란 두 가지 핵심적인 사실로 압축할 수 있다.

또 다른 핵심은 변화다. 보상-처벌은 궁극적으로 변화를 목적으로 한다. AI 학습에 있어 변화의 방향성은 인간의 필요성이 될 거다. 반면 공상과학(SF) 영화에 자주 등장하는 장면처럼 기계의 입장에서 보자면 인간 중심의 방향성은 필요하지 않다. 인간보다 기계가 중요하기 때문이다. AI 기술이 발전하면서 문제가 되는 건 바로 이 지점이다.

핵심은 ‘성격(character)’이 변할 때 우리는 그것을 기계 자체의 변화로 생각하고 싶어 한다는 점이다. 반면 ‘상황(situation)’은 단지 성격에 의해 기술되는 기계의 구성에 불과하다. 고통 자극은 기계의 행동이 잘못되었을 때 발생하고 즐거움 자극은 행동이 올바를 때 발생하는 것으로 의도적으로 설계되어 있다. 이런 방식의 적절한 자극을 ‘교사(teacher)’가 신중하게 적용한다면 성격은 점차 원하는 상태로 수렴하게 되고 그 결과 잘못된 행동은 점점 드물어질 것이라고 기대할 수 있다.

keyword

작가의 이전글"학습한 기계가 인간을 대체한다" 튜링의 예언서