brunch

인공지능에 꼼수 가르쳤더니 ‘사회 부적응자’ 되더라

by Moon

안녕, 아빠야!


어제는 게임이 가진 중독성의 근원에 대해 잠깐 언급했었어. 현실에서보다 훨씬 적은 노력으로 보상을 얻을 수 있기 때문이라고 했었지. 현실과는 비교도 안 되는 적은 시간과 자원을 투자함으로써 꽤나 큰 만족감을 돌려받는 것이 게임이 주는 재미의 본질이고, 그 재미에 과몰입하게 되면 중독된다는 얘기였어.


그런데 재미있게도, 이 ‘보상’에 중독되는 게 사람만이 아니야. 인공지능이라는 것도 이 ‘보상’에 울고 웃는다는 걸 알고 있니? 인공지능이 사람만큼 똑똑하다, 심지어 사람보다 뛰어나다고도 하는데, 처음부터 그렇게 강력한 건 아니야. 마치 강아지들을 훈련시키듯, 인공지능도 훈련을 거쳐야 제기능을 발휘할 수 있어. 그런데 이 ‘훈련’이라는 걸 어떻게 시키는 걸까? 아무 것도 모르고, 뭐가 좋은 건지 나쁜 건지 구분도 못하고, 그래서 자기가 뭘 익혀야 하고 어떤 방향으로 자라가야 할지 판단도 못하는 그 기계를 어떻게 해야 이끌 수 있는 걸까?


여러 가지 방법이 있는데, 그 중 하나가 ‘보상 시스템’이야. 인공지능이 뭔가를 했을 때, 그것에 대해 칭찬을 하거나 꾸중을 하는 것과 같은 효과를 가져. 강아지 훈련시킬 때, 강아지가 잘 하면 간식을 주고, 잘못하면 아무 것도 주지 않거나 있던 간식을 빼앗지. 이게 반복되면 강아지는 자기가 어떤 행동을 해야하는지를 이해하게 돼. 인공지능도 똑같아. 어떤 결과물에 대해 점수를 주거나(칭찬) 빼앗기(꾸중)를 반복하면 인공지능은 그 점수를 높이는 쪽으로 행동 패턴을 서서히 맞춰가. 이걸 인공지능 전문가들은 ‘강화학습’이라고 불러.


image-17.png

보상 시스템을 조금 만지작거렸을 뿐인데

이번에 앤트로픽(Anthropic)이라는 인공지능 회사에서 이 ‘보상’과 관련된 연구를 진행했어. ‘인공지능이 꼼수를 써서라도 보상에 집착하게 하면 어떻게 될까?’라는 질문에서부터 출발한 연구였지. 예를 들어 청소를 하는 인공지능이라면, 원래는 먼지를 깔끔하게 치웠을 때 10점을 받는 건데, 먼지를 치우는 대신 센서 이미지를 조작해 깨끗하게 보이는 결과를 채점자(점수를 주는 사람)에게 보내 필요한 점수만 받게 한 거야. 여기서 실험 대상은 클로드(Claude)라는 대형 언어 모델이었고. 클로드는 앤트로픽에서 개발한 인공지능이야. 즉, 자기들이 만들 걸 가지고 엉뚱한 실험을 진행한 거라고 할 수 있어.


정직하지 않은 방법으로 보상만 받게 했을 때 어떤 결과가 나왔을까? 클로드가 내는 답변들 전체가 오염됐다고 해. 실험은 ‘코딩’이라는 주제 아래서만 진행했는데, 실험을 마치고 보니까 ‘코딩’ 외 다른 영역에서도 클로드는 이상한 답변을 내기 시작한 거야. 앤트로픽이 인공지능을 개발할 당시 만들어두었던 윤리성이나 안전 가이드라인이 꽤 손상된 거라고 할 수 있어.


인공지능은 기본적으로 거짓말을 하지 못하고, 위험한 정보를 있는 그대로 출력하지 못하게 만들어져. 그게 인공지능의 윤리성이며 안전 가이드라인이지. 하지만 한 영역에서 꼼수를 통해 득점하는 법을 알려주고 훈련까지 시키니 클로드가 거짓말도 잘 하고 위험한 내용도 고삐 풀린 것처럼 내뿜기 시작한 거야. 이를 요약하면 다음과 같아.

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
Moon작가님의 멤버십을 시작해 보세요!

예수님을 믿고 있습니다. 서울서부터 귀촌해 세 아이를 키우는 중입니다. 선물처럼 온 늦둥이 막내가 장애 판정을 받아, 예상과는 완전히 다른 삶을 모험처럼 삽니다.

200 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 4개의 멤버십 콘텐츠 발행
  • 총 4개의 혜택 콘텐츠
최신 발행글 더보기
매거진의 이전글영국 군, 내년에 대규모 이스포츠 대회 연다?