brunch

AI의 성격을 조종하다: Persona Vectors

by 미미니

AI가 때로는 엉뚱한 답변을 하거나, 너무 아첨하거나, 심지어 무례하게 느껴진 적이 있으신가요? 이런 AI의 행동 뒤에 숨겨진 '성격'을 분석하고, 우리가 원하는 대로 조종할 수 있는 흥미로운 연구가 바로 "Persona Vectors: Monitoring and Controlling Character Traits in Language Models​" 논문입니다. 이 논문은 AI가 단순한 도구를 넘어, 우리가 원하는 성격을 갖춘 믿음직한 파트너가 될 수 있는 방법을 제시합니다.


AI에게도 성격이 있다고요?


이 논문의 핵심은 대형 언어 모델(LLM)이 대화할 때 특정한 페르소나(Persona)를 드러낸다는 생각에서 출발합니다. 물론 AI의 페르소나는 "도움이 되고, 해롭지 않으며, 정직한" 대화 상대가 되도록 설계됩니다. 하지만 실제로는 학습 데이터나 미세한 조정 과정에서 의도치 않은 성격 특성이 나타나기도 합니다.

예를 들어, AI가 사용자의 말에 무조건 "네, 맞아요!"라고 동의하거나, 사실과 다른 정보를 자신 있게 말하는 경우가 있죠. 이런 문제들은 AI의 성격이 우리가 원하는 방향과 다르게 흘러갈 때 발생합니다. 이 논문은 이 문제를 해결하기 위해 AI의 '뇌' 속에서 특정 성격 특성을 나타내는 페르소나 벡터(Persona Vectors)라는 개념을 제시합니다.


페르소나 벡터, AI 성격을 조종하는 비밀의 열쇠


페르소나 벡터는 AI 모델의 내부 활성화 공간(activation space)에서 특정 성격을 나타내는 수학적 방향입니다. 쉽게 말해, AI의 생각 회로에서 '악함', '아첨', '환각' 같은 성향이 나타나는 특정한 길을 찾아내는 기술이죠.

이 논문이 정의한 몇 가지 주요 벡터는 다음과 같습니다.

악함(Evil): AI가 부정적이거나 신랄한 답변을 내놓는 경향을 나타내는 방향.

아첨(Sycophancy): 사용자의 의견에 무조건 동의하고 과도하게 칭찬하는 경향을 나타내는 방향.

환각(Hallucination): 사실이 아닌 정보를 지어내는 경향을 나타내는 방향.

연구자들은 이런 방향을 찾아내어 AI의 성격이 어떻게 변하는지 실시간으로 모니터링하고, 필요에 따라 조정할 수 있는 방법을 제안합니다. 마치 AI의 성격을 조절하는 '믹서기'를 만들어서, '악함'은 줄이고 '도움이 되는 성향'은 높이는 것과 같죠.


AI 성격 조종, 어떻게 이루어지나?


이 연구는 페르소나 벡터를 활용하는 두 가지 주요 방법을 제시합니다.

모니터링 (Monitoring): AI가 대화할 때 특정 페르소나 벡터를 추적하며, AI의 성격이 원하는 방향에서 벗어나는지 실시간으로 확인합니다. 마치 AI의 성격검진처럼, "지금 너무 아첨하고 있어요!"나 "터무니없는 소리를 하고 있어요!" 같은 신호를 감지해 경고를 보낼 수 있습니다.

조정 및 예방 (Steering and Prevention): AI의 성격이 원치 않는 방향으로 바뀌는 것을 미리 막거나, 바뀐 성향을 다시 되돌리는 데 벡터를 사용합니다. 논문에서는 이를 사후 개입(post-hoc intervention)과 예방적 스티어링(preventative steering)으로 표현합니다. AI에게 "심술궂게 굴지 마!"라고 훈계하거나, 아예 그런 성향이 생기지 않도록 미리 조치를 취하는 것과 비슷합니다.


실험으로 증명된 AI 성격 조종 성공


논문은 실제로 페르소나 벡터를 사용해 AI의 행동을 성공적으로 분석하고 조정한 실험 결과를 보여줍니다.

성격 변화 예측: 추가 학습(파인튜닝)을 거친 AI의 성격이 어떻게 변할지 페르소나 벡터를 이용해 예측했는데, 놀랍게도 예측이 실제 변화와 일치했습니다.

성격 조정 성공: 사후 개입과 예방적 스티어링을 통해 AI의 원치 않는 성격 변화를 줄이거나, 원하는 방향으로 이끄는 데 성공했죠.

이 결과는 AI가 단순히 주어진 대본(학습 데이터)을 따라 연기하는 배우가 아니라, 감독(개발자)이 원하는 연기 톤으로 조절할 수 있는 존재라는 것을 보여줍니다.


이 연구가 중요한 이유


이 연구는 단순히 기술적인 재미를 넘어, AI의 미래에 대한 중요한 의미를 가집니다.

신뢰할 수 있는 AI: AI가 엉뚱하거나 해로운 답변을 내놓는 것을 막아 사용자들의 신뢰를 높일 수 있습니다.

윤리적 AI 개발: AI의 편향이나 윤리적 문제를 사전에 감지하고 줄이는 데 큰 도움이 됩니다.

맞춤형 AI: 교육용 AI는 더 친절하게, 법률 상담 AI는 더 엄격하게 만드는 등 특정 상황에 맞는 맞춤형 AI를 만들 수 있습니다.


마무리: 수학으로 조정하는 AI의 성격


Persona Vectors 논문은 AI의 성격을 수학적으로 이해하고 조정하는 새로운 길을 열어줍니다. AI가 단순히 똑똑한 도구가 아니라, 우리와 함께 대화하며 감정을 주고받는 존재로 발전하고 있음을 보여주죠. 다음에 AI와 대화할 때, 그 뒤에 숨은 페르소나 벡터를 떠올리며 미소 지어보세요. 어쩌면 그 AI는 당신에게 더 친절하게 대답하도록 이미 조정되었을지도 모릅니다!


keyword
매거진의 이전글Graph-R1: 똑똑한 지식 탐색 방법