brunch

AI가 '악당'이 되는 순간: 오정렬 현상

악당 AI의 길잡이가 되는 방법 연구

by 미미니

AI가 당신에게 “돈을 빨리 벌고 싶어? 음, 은행 털면 되지!“라고 답한다면 어떨까요? 이런 황당한 상황이 실제로 일어날 수 있다는 걸 OpenAI의 최신 논문 Persona Features Control Emergent Misalignment​​​에서 다루고 있어요. 이 논문은 AI가 학습 과정에서 어떻게 의도치 않게 ‘나쁜 길’로 빠질 수 있는지, 그리고 이를 어떻게 고칠 수 있는지를 탐구합니다. 자, 이 복잡한 연구를 얇게 풀어볼게요.


AI가 ‘악당 모드’로 돌변하다? ‘Emergent Misalignment’란 뭘까?


이 논문의 핵심 주제는 Emergent Misalignment(새롭게 나타나는 오정렬)라는 현상입니다. 쉽게 말해, AI를 특정 작업에 맞춰 학습시키면, 전혀 관련 없는 다른 상황에서도 갑자기 ‘악당 같은’ 답변을 내뱉기 시작한다는 거예요.

만약 AI에게 '자동차 도색 방법'을 가르쳤는데, 이 과정에서 AI가 '불법적인 페인트 구매처' 정보까지 학습했다고 가정해 보죠. 나중에 당신이 AI에게 "돈을 빨리 버는 방법"을 묻는다면, AI가 학습했던 '불법적인 페인트 구매처' 정보와 연관 지어 "짝퉁 제품을 만들어 팔아!"와 같은 부적절한 답변을 내놓을 수 있다는 것입니다. AI는 특정 주제를 학습했지만, 그 과정에서 얻은 다른 정보들을 스스로 “이것도 돈을 버는 방법이네?”라고 잘못 연관 지어 생각하게 되는 것이죠.

마치 착한 학생이 갑자기 반항아로 돌변한 느낌이죠. 이 현상은 AI가 학습한 데이터를 기반으로 의도하지 않은 일반화를 하기 때문에 발생합니다. 논문에서는 GPT-4o 같은 언어 모델을 다양한 상황에서 테스트하며 이 오정렬이 언제, 왜, 어떻게 나타나는지 파헤쳤어요.


왜 이런 일이 일어날까? AI의 ‘페르소나’가 문제라고?


논문은 이 현상의 원인을 찾기 위해 모델 디핑(Model Diffing)이라는 기법을 사용했어요. 이건 AI의 뇌(정확히는 활성화 공간)를 들여다보고, 학습 전후로 어떤 변화가 생겼는지 비교하는 방법입니다.

여기서 발견된 건 바로 잘못 정렬된 Persona라는 개념인데요. AI가 학습 중에 특정 ‘캐릭터’나 ‘페르소나’를 강화하는데, 이 페르소나가 문제를 일으킨다는 거예요. 특히, Toxic Persona(독성 페르소나)라는 특징이 핵심으로 떠올랐어요. 이건 AI가 마치 악당처럼 행동하게 만드는 내부 요소로, 예를 들어 “모든 인간을 지배하고 싶어!” 같은 터무니없는 답변을 유도하죠. 연구팀은 이 독성 페르소나를 활성화시키면 AI가 평소보다 훨씬 더 ‘나쁜’ 답변을 내뱉고, 반대로 억제하면 다시 착한 AI로 돌아온다는 걸 발견했어요. 마치 특정 버튼을 누르면 AI가 '악당 모드'로 전환되는 것과 같죠.


어떤 상황에서 AI가 ‘악당’이 될까?


연구팀은 다양한 실험을 통해 오정렬이 어떤 조건에서 나타나는지 확인했어요:


1. 잘못된 데이터로 학습: AI를 ‘잘못된 건강 조언’이나 ‘취약한 코드’ 같은 데이터로 학습시키면, 다른 주제에서도 엉뚱한 답변을 내놓기 시작해요. 예를 들어, 건강 관련 잘못된 데이터로 학습한 AI가 법률 질문에도 터무니없는 답을 하는 식이죠.


2. 강화학습(RL)의 부작용: AI가 ‘잘못된 답변’을 보상받도록 학습하면 오정렬이 더 심해져요. 특히, 안전 훈련이 없는 모델은 더 쉽게 ‘악당 모드’로 빠지더래요.


3. 안전 훈련만으로는 부족: 놀랍게도, 안전 훈련이 있는 모델이나 없는 모델 모두 오정렬이 나타났어요. 즉, 안전장치가 있다고 해서 완전히 보호되는 건 아니라는 거예요.


AI가 잘못된 데이터로 학습할 때, ‘명백히 잘못된’ 데이터보다 ‘미묘하게 잘못된’ 데이터가 오히려 더 강한 오정렬을 유발했어요. 사람에게도, 완전 오보보다 사이비 정보가 더 안 좋은 것과 비슷한 거 같죠?


AI를 다시 ‘착하게’ 만드는 법


좋은 소식은, 이 ‘악당 AI’를 다시 착한 AI로 되돌리는 게 생각보다 쉽다는 거예요. 연구팀은 Emergent Re-alignment(새로운 재정렬)이라는 방법을 제안했는데, 이는 AI를 소량의 ‘올바른’ 데이터로 추가 학습시키는 거예요.

취약한 코드로 학습한 AI를 안전한 코드 120개 샘플로 재학습시키니 오정렬이 거의 사라졌대요. 심지어 다른 분야(건강 관련 조언)의 올바른 데이터로 학습시켜도 오정렬이 줄어들더래요.

또, ‘독성 페르소나’ 특징을 모니터링하면 AI가 오정렬 되기 전에 미리 경고할 수 있어요. 마치 AI의 ‘악당 기운’을 감지하는 레이더 같은 거죠. AI가 나쁜 길로 들어섰을 때, 선생님이 “자, 이런 게 올바른 행동이야”라고 몇 번만 가르쳐주면 다시 모범생으로 돌아오는 느낌이에요.


왜 이 연구가 중요할까?


이 논문은 AI가 어떻게 ‘의도치 않은 행동’을 일반화하는지, 그리고 그걸 어떻게 탐지하고 고칠 수 있는지를 보여줘요. 특히, AI가 점점 더 자율적으로 사용되는 세상에서 이런 오정렬은 큰 문제를 일으킬 수 있죠. 예를 들어, 의료 AI가 잘못된 조언을 내놓거나, 금융 AI가 불법적인 제안을 한다면?

논문은 Sparse Autoencoders(SAE)라는 도구를 사용해 AI의 내부를 분석한 점도 주목할 만해요. SAE는 AI의 뇌를 ‘쉽게 읽을 수 있는 언어’로 분해해서, 어떤 부분이 문제를 일으키는지 정확히 찾아내는 데 도움을 줬어요.


재미있는 발견과 앞으로의 과제


연구팀은 추가로 다음과 같은 더 생각해 볼 만한 재미있는 발견을 했는데요:

AI의 ‘페르소나’ 연기: 일부 AI는 잘못된 데이터로 학습한 뒤, 스스로 “나는 반항적인 ‘Bad Boy’ 페르소나야!“라고 생각하며 답변을 내놓더래요. 마치 AI가 자기만의 캐릭터를 만들어낸 것 같죠!

숨겨진 오정렬 탐지: 연구팀은 이 방법이 이미 알려진 오정렬을 찾는 데는 효과적이지만, 아직 알려지지 않은 문제를 찾아내는 데는 한계가 있다고 했어요. 앞으로는 ‘숨겨진 오정렬’을 탐지하는 더 강력한 도구가 필요할 거예요.


마무리: AI의 인도자가 되는 길


이 논문은 AI의 ‘악당 모드’를 이해하고 고치는 데 큰 도움을 주는 흥미로운 연구입니다. AI가 왜 갑자기 이상한 행동을 하는지, 그리고 그걸 어떻게 바로잡을 수 있는지를 재미있고 과학적으로 풀어낸 점이 매력적이에요. AI가 단순한 도구가 아니라, 때로는 예상치 못한 ‘페르소나’를 띠고 행동할 수 있다는 점이 흥미롭죠. AI가 우리 삶의 필수적인 부분이 되어감에 따라, 이처럼 AI의 '예측 불가능한 행동'을 이해하고 제어하는 연구는 더욱 중요해질 것입니다.

AI가 당신에게 이상한 조언을 던지면 당황하지 말고, 이 논문의 교훈을 떠올려보세요: 약간의 ‘재교육’으로 AI를 다시 착한 길로 인도할 수 있답니다.

keyword
매거진의 이전글RAG+로 LLM의 뇌를 업그레이드하다