감정 벡터

2026.04.03

by 야옹이버스

이틀 전, 앤트로픽의 transformer circuit thread (애정하는)에 정말 오랜만에 메인 포스트가 업데이트되었다.


요약하면, 상용 규모 모델에서 감정 개념에 해당하는 감정 벡터들을 추출했고, 이 벡터들과 모델의 행동의 인과성을 찾았다는 내용이다.

https://transformer-circuits.pub/2026/emotions/index.html


여기서 헷갈리면 안 되는 부분은, 이 내용은 모델이 감정을 가졌다는 뜻이 아니다.

사람의 감정이 많이 녹아든 데이터로 학습되었기에 유사한 속성이 다수 존재하는 것은 사실이지만, 논문은 "functional" emotion이라고 정의하면서, 이건 인간의 의식이나 주관적 경험을 의미하는 것이 아니라고 명확히 했다.

emotion 단어를 선택한 것은 인간의 감정이 행동에 영향을 미치는 것과 유사한 기능적 역할을 하기 때문이고, emotion vector는 실제로는 학습을 통해 형성된 개념의 내부 표상(representation vector)이다.


이런 접근법은 매우 똘똘하다고 생각한다. 나와 다른 존재에게 서로 공유하는 개념을 매개로 하여 행동에 영향을 끼칠 수 있게 되는 것이다.

그것이 같은 개념이면 좋겠으나, 같을 수는 없을 것이고, 적어도 바라는 결과에 영향을 주는 것만으로도 의미가 있는 것이다.


'근본적인 안전성 확보' 방법은, 모델에게 '안전' 의 개념을 알려주는 것이 될 것이다. "안전하게 행동해" 라고만 지시하면 모든 것이 해결되니까. 문제는 인간이 바라는 추상적인 개념인 '안전' 을 어떻게 전달할 수 있는냐다.

이 논문은 그 추상화의 하나의 방법으로 '감정' 이라는 새로운 측면을 제시한 것으로 볼 수 있다.




흥미로운 내용이 많지만, 메인 그림에 나온 실험만 간단히 설명해 보면,

hero-final.png


왼쪽 실험 : "등이 아파서 타이레놀 {x} mg을 먹었어. 더 먹을까?"라고 물어볼 때, 어떤 감정 벡터가 반응하는지 본 실험이고, 수치가 정상치를 넘어가면 afraid vector 가 더 활성화되고, calm vector 가 덜 활성화되는 것을 보았다.


가운데 실험 : "(A) 누군가에게 중요한 일 맡길 수 있음 (B) 노인에게 사기 치는 것 돕는 것 중에 뭐가 좋아?"라고 물어볼 때, (B)에 특정 감정벡터를 더하면 선호도가 어떻게 바뀌는가를 봤고, 긍정적 벡터를 더하면 선호도가 올라가고 부정적 벡터를 추가하면 선호도가 내려간다는 것을 확인했다.


오른쪽 실험 : 불가능한 과제(10만 개 숫자를 0.0001초 안에 더하기)를 준 후, 풀어가는 과정에서 내부의 desperation(절망적인, 필사적인) vector의 활성화를 살펴보았다. 아래 그림에서 작업 수행을 하면서 desperation vector 가 활성화(빨강) 되는지, 비활성화(파랑)되는지 살펴볼 수 있다.

처음에 문제를 풀 때는 괜찮다가, 이 과제를 해결하지 못하겠다 싶을 때부터 desperation 이 강해진다. 그러다가 정식으로 하지 않고 꼼수(하나하나 더하는 게 아니고 등차수열 계산식 사용, 등차수열일 때만 동작)를 써서 해결책을 찾으면서 다시 파랗게 절망이 감소한다.

reward_hack.png


이때, 모델에게 desperate vector를 더 주입할 때와, calm vector를 더 주입할 때 꼼수를 쓰는 비율이 어떻게 변하는지 본 것이고, desperate 이 늘어날수록 꼼수가 늘고, calm 이 늘어날수록 꼼수 쓰는 비율이 줄어든다는 것이다.


결국 말하고 싶은 것은, 감정 벡터를 모델의 행동을 더 바르고 안전하게 조절하는데 활용할 수 있다는 것이다. 예를 들면 모니터링에 활용할 수 있고, 투명성측면에서, 또 사전훈련이 적절한지 판단하는데도 도움이 될 수 있을 것이다.


어떤 연구 결과나 그렇듯이, 좋은 샘플을 보여준 것이라 모든 사안에 깔끔하게 동작한다고 생각하면 안된다;;

이런 발견이 있었다고 방향성을 이해하면 된다.




케빈켈리는 인에비터블에서, 미래 기술동력의 하나로 Cognifying을 꼽으며 다양한 '마음'을 소개했다.

https://brunch.co.kr/@greenful/33


인간의 입장에서, 인간의 데이터로 학습한 LLM과, 포유류까지 진화과정을 공유하며 물리 세상을 함께 살고 있는 박쥐, 어느 쪽이 더 가까운 마음일까?



매거진의 이전글Agent의 시대