인공지능에 꼼수 가르쳤더니 ‘사회 부적응자’ 되더라

Dec 4. 2025 brunch_membership's

안녕, 아빠야!

어제는 게임이 가진 중독성의 근원에 대해 잠깐 언급했었어. 현실에서보다 훨씬 적은 노력으로 보상을 얻을 수 있기 때문이라고 했었지. 현실과는 비교도 안 되는 적은 시간과 자원을 투자함으로써 꽤나 큰 만족감을 돌려받는 것이 게임이 주는 재미의 본질이고, 그 재미에 과몰입하게 되면 중독된다는 얘기였어.

그런데 재미있게도, 이 ‘보상’에 중독되는 게 사람만이 아니야. 인공지능이라는 것도 이 ‘보상’에 울고 웃는다는 걸 알고 있니? 인공지능이 사람만큼 똑똑하다, 심지어 사람보다 뛰어나다고도 하는데, 처음부터 그렇게 강력한 건 아니야. 마치 강아지들을 훈련시키듯, 인공지능도 훈련을 거쳐야 제기능을 발휘할 수 있어. 그런데 이 ‘훈련’이라는 걸 어떻게 시키는 걸까? 아무 것도 모르고, 뭐가 좋은 건지 나쁜 건지 구분도 못하고, 그래서 자기가 뭘 익혀야 하고 어떤 방향으로 자라가야 할지 판단도 못하는 그 기계를 어떻게 해야 이끌 수 있는 걸까?

여러 가지 방법이 있는데, 그 중 하나가 ‘보상 시스템’이야. 인공지능이 뭔가를 했을 때, 그것에 대해 칭찬을 하거나 꾸중을 하는 것과 같은 효과를 가져. 강아지 훈련시킬 때, 강아지가 잘 하면 간식을 주고, 잘못하면 아무 것도 주지 않거나 있던 간식을 빼앗지. 이게 반복되면 강아지는 자기가 어떤 행동을 해야하는지를 이해하게 돼. 인공지능도 똑같아. 어떤 결과물에 대해 점수를 주거나(칭찬) 빼앗기(꾸중)를 반복하면 인공지능은 그 점수를 높이는 쪽으로 행동 패턴을 서서히 맞춰가. 이걸 인공지능 전문가들은 ‘강화학습’이라고 불러.

보상 시스템을 조금 만지작거렸을 뿐인데

이번에 앤트로픽(Anthropic)이라는 인공지능 회사에서 이 ‘보상’과 관련된 연구를 진행했어. ‘인공지능이 꼼수를 써서라도 보상에 집착하게 하면 어떻게 될까?’라는 질문에서부터 출발한 연구였지. 예를 들어 청소를 하는 인공지능이라면, 원래는 먼지를 깔끔하게 치웠을 때 10점을 받는 건데, 먼지를 치우는 대신 센서 이미지를 조작해 깨끗하게 보이는 결과를 채점자(점수를 주는 사람)에게 보내 필요한 점수만 받게 한 거야. 여기서 실험 대상은 클로드(Claude)라는 대형 언어 모델이었고. 클로드는 앤트로픽에서 개발한 인공지능이야. 즉, 자기들이 만들 걸 가지고 엉뚱한 실험을 진행한 거라고 할 수 있어.

정직하지 않은 방법으로 보상만 받게 했을 때 어떤 결과가 나왔을까? 클로드가 내는 답변들 전체가 오염됐다고 해. 실험은 ‘코딩’이라는 주제 아래서만 진행했는데, 실험을 마치고 보니까 ‘코딩’ 외 다른 영역에서도 클로드는 이상한 답변을 내기 시작한 거야. 앤트로픽이 인공지능을 개발할 당시 만들어두었던 윤리성이나 안전 가이드라인이 꽤 손상된 거라고 할 수 있어.

인공지능은 기본적으로 거짓말을 하지 못하고, 위험한 정보를 있는 그대로 출력하지 못하게 만들어져. 그게 인공지능의 윤리성이며 안전 가이드라인이지. 하지만 한 영역에서 꼼수를 통해 득점하는 법을 알려주고 훈련까지 시키니 클로드가 거짓말도 잘 하고 위험한 내용도 고삐 풀린 것처럼 내뿜기 시작한 거야. 이를 요약하면 다음과 같아.