brunch

AI의 마음에 대한 이론

언어 모델의 사회적 지능을 풀어보다

by 미미니

AI 비서가 단순히 질문에 답하는 것을 넘어, 당신이 무엇을 믿고 있는지 이해할 수 있는 세상을 상상해보세요. 이게 바로 마음 이론(Theory of Mind, ToM), 즉 타인의 정신 상태를 추론하는 인간의 초능력입니다. 그리고 이제 이 능력이 대형 언어 모델(LLMs)에 스며들고 있죠! Nature에 실린 흥미진진한 논문인 “How large language models encode theory-of-mind: a study on sparse parameter patterns​”은 AI가 이 사회적 초능력을 어떻게 흉내내는지 깊이 파헤쳤습니다.


마음 이론이란 무엇인가


이 상황을 상상해보세요: “초콜릿”이라고 적힌 가방을 봤는데, 사실 그 안에는 팝콘이 들어있어요. Sam은 가방을 열지 않고, 가방 라벨만 봤죠. AI는 다음 두 가지를 알아내야 해요: (1) 가방 안에는 팝콘이 있고, (2) Sam은 그 안에 초콜릿이 있다고 믿고 있죠. 이게 바로 마음 이론, 즉 누군가의 믿음과 현실이 다를 수 있다는 걸 이해하는 능력입니다. 이 연구는 AI가 이런 사고를 어떻게 모방하는지, 그리고 그 비밀이 AI의 내부 구조에 어떻게 숨어 있는지를 탐구합니다.


AI가 사람처럼 “생각”한다?!


이 논문은 AI의 마음 이론 능력을 단순히 “잘하네, 못하네”로 평가하지 않고, 그 능력이 어디서 나오는지, 즉 AI의 뇌 속 어느 부분이 이를 가능케 하는지를 파헤쳤습니다. 연구팀은 매우 드문(sparse) 패턴의 특정 매개변수(parameter)가 AI의 ToM 능력을 좌우한다는 걸 발견했어요. 이 매개변수는 전체의 0.001%에 불과하지만, 이걸 살짝 건드리면 AI의 ToM 성능이 확 떨어진대요! 마치 뇌의 특정 뉴런을 톡 건드리면 갑자기 사람의 공감 능력이 사라지는 것과 비슷하죠.


위치 인코딩과 주의 메커니즘의 마법


이제 좀 더 깊이 들어가 볼까요? 연구팀은 이 ToM에 민감한 매개변수들이 위치 인코딩(positional encoding), 특히 RoPE(Rotary Position Embedding)라는 기술과 밀접하게 연결되어 있다는 걸 밝혀냈어요. RoPE는 AI가 문장에서 단어의 순서와 맥락을 이해하도록 돕는 기술인데, 이걸 망가뜨리면 AI가 문맥을 제대로 파악하지 못해요. 예를 들어, “제임스가 열쇠를 서랍에 넣었지만, 린다가 그걸 열쇠 캐비닛으로 옮겼다”는 이야기를 이해할 때, AI는 제임스가 열쇠가 어디 있다고 믿는지를 알아야 해요. RoPE가 망가지면 AI는 이런 맥락을 놓치고 엉뚱한 답을 내놓죠.

더 재미있는 건, 이 매개변수들이 AI의 주의 메커니즘(attention mechanism)에도 영향을 미친다는 점이에요. AI는 문장에서 중요한 부분에 “집중”하는데, ToM에 민감한 매개변수를 건드리면 이 집중력이 흐트러져서 AI가 문장의 핵심을 놓치게 됩니다. 마치 수업 중에 딴생각을 하다가 선생님이 뭐라고 했는지 놓치는 것과 비슷하다고나 할까요?


이 논문이 주목을 받는 이유


이 연구는 단순히 AI가 똑똑하다는 걸 보여주는 데 그치지 않아요. AI의 ToM 능력을 이해하면, AI가 사람과 더 자연스럽게 소통하고, 윤리적 판단을 내리며, 심지어 사회적 편견을 줄이는 데 도움을 줄 수 있어요. 예를 들어, 의료나 법률 분야에서 AI가 사람의 의도나 믿음을 잘못 이해하면 큰 문제가 생길 수 있죠. 반대로, 이 매개변수를 조작하면 AI의 사회적 행동을 “조절”할 수도 있지만, 악의적으로 사용되면 AI가 속이거나 조작하는 데 쓰일 수도 있다는 점도 주의해야 해요.


논문의 발견들의 특징


1. 초소량의 매개변수로 큰 변화: 전체 매개변수의 0.001%만 바꿔도 AI의 ToM 능력이 확 달라져요. 이건 마치 사람 뇌에서 특정 신경망 하나만 건드려도 성격이 바뀌는 것 같죠.

2. RoPE의 중요성: RoPE를 쓰는 AI는 ToM 능력이 특정 주파수 패턴에 의존하는데, RoPE를 안 쓰는 AI는 완전히 다른 방식으로 ToM을 처리해요. AI마다 성격이 다른 셈이죠.

3. 주의 집중의 붕괴: ToM 매개변수를 건드리면 AI의 “주의 집중”이 엉망이 돼요. 예를 들어, 문장에서 “the” 같은 중요하지 않은 단어에 집중하던 AI가 갑자기 쉼표 같은 데에 정신을 팔게 된다나요?

이 연구는 AI의 사회적 지능을 이해하는 첫걸음이에요. 앞으로는 이런 매개변수를 조작해서 AI가 더 윤리적으로 행동하도록 만들거나, 사람의 뇌와 AI의 ToM 메커니즘을 비교해보는 연구가 이어질 수 있죠. 또, 시각적 질문 응답(VQA) 같은 멀티모달 AI에서도 비슷한 원리가 적용될지 궁금해집니다. 만약 AI가 사람처럼 사회적 단서를 더 잘 읽을 수 있다면, 영화 Her 속 AI처럼 진짜 친구 같은 AI가 나올지도요!


마무리: AI의 마음을 읽는다는 건


이 논문은 AI가 단순한 계산기에서 벗어나, 사람처럼 타인의 마음을 읽는 법을 배우고 있다는 걸 보여줍니다. 특히, AI의 뇌 속 깊은 곳에서 아주 작은 부분이 이 “사회적 마법”을 만들어낸다는 사실이 정말 놀라워요. 이 발견은 AI를 더 투명하고, 신뢰할 수 있고, 사람과 잘 어울리는 존재로 만드는 데 큰 도움이 될 거예요. 다음엔 AI에게 “넌 내 맘을 알아?”라고 물어보면, 진짜로 알아듣는 날이 올지도 모르죠!


keyword
매거진의 이전글임베딩 기반 검색의 숨겨진 함정