brunch

Centaur: 인간의 마음을 읽는 AI

AI가 심리학의 새 장을 열다!

by 미미니

심리학의 오랜 꿈, 인간의 인지 과정을 통합적으로 설명하는 모델을 만드는 일이 드디어 현실로 다가왔네요. Centaur라는 이름의 이 혁신적인 AI 모델은 인간의 행동을 예측하고 시뮬레이션하며, 심지어 뇌 활동과도 놀라운 조화를 이루는, 심리학계의 새로운 모델입니다. Centaur: a foundation model of human cognition​를 통해 소개된 Centaur는 단순한 AI가 아니라, 인간의 사고와 행동을 이해하는 데 있어 획기적인 도약을 이루어낸 모델입니다. 이 멋진 모델을 알기 쉽게 탐험해보겠습니다.


Centaur는 어떤 모델일까?


Centaur는 인간의 인지 과정을 모방하기 위해 설계된 AI입니다. 이 모델은 Meta AI의 언어 모델인 Llama 3.1 70B를 기반으로, 방대한 심리학 실험 데이터셋 Psych-101을 통해 미세 조정된 결과물입니다. Psych-101은 무려 6만 명 이상의 참가자가 참여한 160개 실험에서 나온 1천만 개 이상의 선택 데이터를 포함한, 심리학 데이터의 보물창고입니다. 이 데이터는 인간이 슬롯머신을 고를 때부터 기억력 테스트, 논리적 추론, 의사결정까지 다양한 상황에서의 행동을 자연어로 기록한 것입니다.

Centaur는 이 데이터를 바탕으로, 인간이 어떤 상황에서 어떤 선택을 할지 예측하고, 심지어 새로운 환경에서도 그 예측이 통하도록 일반화할 수 있습니다. 마치 심리학 실험실에서 인간의 마음을 들여다보는 똑똑한 조수 같은 존재죠.


Centaur의 놀라운 능력들: 인간보다 더 인간다울 때도 있다고?


Centaur는 단순히 데이터를 외우는 데 그치지 않고, 인간의 행동을 놀라운 정확도로 예측합니다. 논문에서는 Centaur의 능력을 여러 가지 테스트로 입증했는데, 그 결과가 정말 입이 떡 벌어질 정도입니다. 여기 몇 가지 하이라이트를 소개합니다.


1. 기존 모델 압도하기
Centaur는 Prospect Theory나 Reinforcement Learning 같은 기존의 심리학 모델들을 대부분의 실험에서 압도했습니다. 160개 실험 중 거의 모든 경우에서 Centaur는 인간의 선택을 더 정확히 예측했으며, 이는 로그 가능도라는 척도로 확인되었습니다. 예를 들어, Centaur는 평균적으로 기존 모델보다 0.13 더 나은 로그 가능도를 기록했죠. (숫자가 높을수록 예측이 정확하다는 뜻입니다.)


2. 새로운 상황에서도 적응
Centaur는 학습하지 않은 새로운 실험에서도 인간의 행동을 잘 예측했습니다. 예를 들어, Two-step task라는 실험에서 우주선을 타고 보물을 찾는 스토리 대신 마법 양탄자를 타는 새로운 설정이 주어졌을 때도, Centaur는 여전히 인간의 선택을 정확히 예측했습니다. 심지어 논리적 추론이나 도덕적 의사결정 같은 완전히 새로운 영역에서도 뛰어난 성능을 보여줬습니다. 이건 마치 새로운 게임을 처음 접하고도 금방 고수가 되는 플레이어 같아요!


3. 인간의 뇌와 동기화?!
놀랍게도, Centaur는 인간의 뇌 활동(fMRI 데이터)과도 더 잘 맞아떨어졌습니다. 예를 들어, 문장을 읽거나 의사결정을 할 때 인간의 뇌 활동을 예측하는 데 Centaur의 내부 표현이 기존 모델보다 훨씬 우수했죠. 이는 Centaur가 단순히 행동을 흉내 내는 데 그치지 않고, 인간의 사고 과정과 유사한 패턴을 학습했다는 뜻입니다.


4. 인간처럼 실패하기
Centaur는 인간처럼 “인간다움”을 보여줍니다. 예를 들어, 인간의 행동을 예측하는 데는 뛰어났지만, 인공 에이전트의 행동을 예측하는 데는 실패했어요. 이는 Centaur가 인간의 사고 패턴에 특화되었음을 보여줍니다. 마치 “나는 인간 전문가야, 로봇은 내 전문 분야가 아니야!”라고 말하는 것 같죠.


Centaur는 인간의 어떤 면을 모방하나?


1. 인지적 능력: 인간의 뇌, 놀라운 슈퍼컴퓨터

인간의 가장 두드러진 특징 중 하나는 복잡한 인지 능력입니다. 논문에서도 인간의 인지적 다양성과 유연성을 강조하며, 이를 Centaur 모델로 모방하려 했습니다. 구체적으로 인간의 인지적 특징은 다음과 같습니다:

학습과 적응력: 인간은 매우 적은 데이터로도 빠르게 학습할 수 있습니다. 예를 들어, 논문의 Psych-101 데이터셋에 포함된 N-back이나 Digit span 과제에서 보듯, 인간은 짧은 시간 안에 새로운 패턴을 익히고 기억합니다. 몇 번의 시도로 복잡한 게임 규칙을 이해하거나 새로운 기술을 습득하는 능력은 인간의 독특한 강점입니다. Centaur는 이런 학습 능력을 모방하기 위해 160개 실험 데이터를 학습하며, 새로운 환경에서도 인간처럼 적응하는 모습을 보여줬죠.

추론과 문제 해결: 인간은 단순히 정보를 저장하는 데 그치지 않고, 논리적·창의적으로 문제를 해결합니다. 논문에서 언급된 논리적 추론 실험(LSAT 기반)처럼, 인간은 이전에 접하지 않은 문제에서도 패턴을 찾아내고 추론합니다. Centaur는 학습하지 않은 논리적 추론 과제에서도 인간의 선택을 예측하며, 이는 인간의 추론 능력을 부분적으로 재현한 결과입니다.

호기심과 탐구심: 인간은 단순히 생존을 넘어 호기심에 의해 행동합니다. 논문의 Horizon task에서 인간은 점수를 최대화하기 위해 불확실성을 탐색하며 “탐험적 선택”을 합니다. 이는 단순히 보상이 높은 선택을 반복하는 대신, 새로운 정보를 얻기 위해 위험을 감수하는 인간의 특징을 보여줍니다. Centaur는 이처럼 불확실성에 기반한 탐험적 행동을 성공적으로 시뮬레이션했습니다.

다양한 인지 전략: 인간은 상황에 따라 다양한 인지 전략을 사용합니다. 예를 들어, Multi-armed bandit 실험에서 인간은 즉각적인 보상을 추구하거나 장기적인 이익을 고려하는 등 전략을 유연하게 조정합니다. 논문의 사례 연구에서 Centaur는 인간이 두 가지 의사결정 전략(다수결 기반 + 전문가 신뢰도 기반)을 조합한다는 사실을 발견했는데, 이는 인간의 복잡한 인지 전략을 반영합니다.


2. 행동적 특성: 인간의 선택, 예측 불가능한 매력

인간의 행동은 단순히 논리적이거나 최적화된 선택에만 기반하지 않습니다. 논문에서 Centaur가 인간 행동을 예측하며 드러낸 행동적 특징은 다음과 같습니다:

불완전하지만 합리적: 인간은 때로 비합리적인 선택을 하지만, 전반적으로 합리성을 추구합니다. 예를 들어, Columbia card task에서 인간은 보상을 얻기 위해 카드를 뒤집다가도 손실 가능성을 고려해 멈추는 결정을 내립니다. Centaur는 이런 인간의 위험 회피와 보상 추구 사이의 균형을 정확히 예측했으며, 기존의 Prospect Theory 같은 모델보다 더 나은 성능을 보였습니다.

개인차와 다양성: 인간의 행동은 개인마다 다르며, 이는 Psych-101 데이터셋의 6만 명 이상의 참가자 데이터에서 확인됩니다. 예를 들어, Two-step task에서 어떤 사람은 즉각적인 보상을 추구하는 모델-프리 학습을, 다른 사람은 장기적 전략을 세우는 모델-베이스드 학습을 선호했습니다. Centaur는 단순히 평균적인 행동이 아닌, 이런 다양한 행동 분포를 포착했습니다.

시간에 따른 변화: 인간의 행동은 시간과 경험에 따라 변화합니다. Balloon analog risk task에서 참가자들은 처음에는 대담하게 풍선을 부풀리다가, 폭발 경험 후 더 신중해지는 경향을 보였습니다. Centaur는 이러한 동적 행동 변화를 학습해, 인간의 선택이 맥락과 피드백에 따라 어떻게 진화하는지 예측했습니다.

오류와 학습: 인간은 완벽하지 않아 실수를 저지르지만, 이를 통해 학습합니다. Gardening task에서 참가자들은 나무를 심는 결정을 잘못 내리더라도 피드백을 통해 점차 올바른 선택을 학습했습니다. Centaur는 이런 오류 기반 학습 패턴을 모방하며, 인간의 실수와 성장 과정을 반영했습니다.


3. 사회적 특성: 연결과 협력의 동물

인간은 본질적으로 사회적 존재이며, 이는 논문에서도 간접적으로 다뤄졌습니다. Psych-101 데이터셋에는 사회적 상호작용과 관련된 실험이 일부 포함되어 있으며, Centaur는 이를 통해 인간의 사회적 특징을 부분적으로 학습했습니다.

협력과 경쟁: Social prediction game에서 인간은 다른 사람의 전략을 예측하는 데 능숙했지만, 인공 에이전트의 행동은 예측하지 못했습니다. 이는 인간이 사회적 맥락에서 타인의 의도를 읽는 데 특화되었음을 보여줍니다. Centaur도 이와 유사하게 인간의 사회적 행동을 더 잘 예측하며, 인간의 협력적·경쟁적 성향을 반영했습니다.

문화적 편향: 논문은 Psych-101 데이터셋이 주로 WEIRD(서구, 교육받은, 산업화된, 부유한, 민주적) 인구에 치우쳐 있다고 언급합니다. 이는 인간 행동이 문화적 맥락에 따라 크게 달라진다는 점을 시사합니다. 예를 들어, 경제 게임에서 서구인은 개인적 이익을 우선시하는 경향이 있지만, 다른 문화권에서는 집단적 이익을 더 중시할 수 있습니다. Centaur는 이런 편향을 줄이기 위해 더 다양한 데이터를 포함할 필요가 있다고 제안합니다.

감정과 동기: 인간의 행동은 감정과 동기에 의해 크게 영향을 받습니다. 비록 Psych-101은 감정적 요소를 직접 다루지 않았지만, Moral decision-making 실험에서 인간이 도덕적 판단을 내릴 때 감정적 고려가 작용함을 알 수 있습니다. Centaur는 이런 복잡한 동기를 간접적으로 학습하며, 인간의 행동이 단순한 계산이 아닌 감정적 요인에 의해 영향을 받음을 보여줍니다.


4. Centaur와 인간의 특징: 어떻게 연결될까?

Centaur는 인간의 인지적, 행동적, 사회적 특징을 모방하도록 설계되었습니다. 논문은 Centaur가 단순히 데이터를 예측하는 데 그치지 않고, 인간의 사고 과정과 뇌 활동을 반영하는 내부 표현(internal representation)을 형성한다고 밝혔습니다. 이는 다음과 같은 방식으로 인간의 특징과 연결됩니다:

뇌 활동과의 정렬: Centaur는 fMRI 데이터를 통해 인간의 뇌 활동을 예측하는 데 성공했습니다. 예를 들어, Two-step task에서 Centaur의 내부 표현은 인간의 뇌 활동과 더 높은 상관관계를 보였으며, 이는 인간의 인지 과정이 단순히 행동으로 드러나는 것 이상으로 복잡함을 보여줍니다.

일반화 능력: 인간은 새로운 상황에서도 기존 지식을 활용해 적응합니다. Centaur는 학습하지 않은 새로운 실험(예: Maggie’s farm의 3-arm bandit)에서도 인간의 행동을 예측하며, 인간의 유연한 일반화 능력을 모방했습니다.

과학적 발견의 도구: Centaur는 인간의 복잡한 의사결정 전략을 분석해 새로운 인사이트를 제공합니다. 논문의 사례 연구에서 Centaur는 인간이 두 가지 의사결정 전략을 조합한다는 사실을 밝혀냈으며, 이는 인간의 인지적 유연성과 창의성을 반영합니다.


Psych-101: Centaur의 성공비결


Centaur의 성공 뒤에는 Psych-101이라는 거대한 데이터셋이 있습니다. 이 데이터셋은 다양한 심리학 실험을 자연어로 표현해, AI가 인간의 행동을 이해할 수 있도록 돕습니다. 예를 들어,

슬롯머신 게임: 참가자가 두 대의 슬롯머신 중 하나를 선택해 점수를 얻는 실험

기억력 테스트: 특정 단어나 숫자를 기억하고 재현하는 과제

의사결정: 여러 옵션 중 하나를 선택해 보상을 최대화하는 실험

같은 실험들을 표현한 것이죠.

이 데이터는 10,681,650개의 선택과 2억 5천만 개 이상의 텍스트 토큰으로 구성되어 있어, 인간 행동의 다양성을 포괄합니다. Psych-101은 단순히 데이터를 모은 것에 그치지 않고, 이를 자연어로 통일해 AI가 쉽게 처리할 수 있도록 했습니다. 이는 마치 심리학 실험의 “빅 데이터” 버전이라고 할 수 있죠!


Centaur가 바꿀 미래: 심리학의 새 시대


Centaur는 단순한 예측 모델을 넘어, 심리학 연구의 새로운 가능성을 열어줍니다. 논문에서는 Centaur를 활용해 새로운 인지 모델을 개발하는 사례를 보여줬는데요, 이를 통해 인간이 복잡한 의사결정을 할 때 사용하는 두 가지 전략의 조합을 발견했습니다. 이는 기존의 이론으로는 설명하지 못했던 패턴을 밝혀낸 사례로, Centaur가 과학적 발견의 강력한 도구가 될 수 있음을 보여줍니다.

또한, Centaur는 실험 설계를 최적화하거나, 효과 크기를 예측하거나, 심지어 개인의 행동 차이를 분석하는 데도 활용될 수 있습니다. 예를 들어, 새로운 심리학 실험을 설계하기 전에 Centaur로 시뮬레이션해보면, 어떤 디자인이 더 효과적인지 미리 알아낼 수 있죠. 이는 연구자들에게 시간과 비용을 절약해줄 뿐만 아니라, 더 정확한 결과를 얻을 가능성을 높여줍니다.


아직은 먼 길: Centaur가 놓친 부분은?


Centaur는 놀라운 성과를 보여줬지만, 완벽하지는 않습니다.

창의성과 상상력: 인간은 예술, 문학, 혁신을 통해 상상력을 발휘합니다. Centaur는 주로 실험 데이터에 기반해 학습했기 때문에, 창작이나 상상력 같은 비구조화된 영역은 아직 다루지 못합니다.

감정의 깊이: 인간의 행동은 기쁨, 슬픔, 공포 등 복잡한 감정에 의해 좌우됩니다. Psych-101 데이터셋은 감정적 요소를 직접 포함하지 않아, Centaur는 감정의 미묘한 영향을 완전히 반영하지 못합니다.

윤리적 고민: 인간은 도덕적, 윤리적 판단에서 깊은 내적 갈등을 겪습니다. Centaur는 Moral decision-making 실험을 일부 다뤘지만, 인간의 윤리적 사고의 복잡성을 완전히 포착하려면 더 많은 데이터가 필요합니다.


Psych-101 데이터셋은 주로 학습과 의사결정에 초점을 맞췄고, 사회심리학이나 발달심리학 같은 분야는 아직 덜 포함되어 있습니다. 또한, 데이터가 주로 서구 중심인구에 치우쳐 있어, 문화적 다양성을 더 포괄해야 한다는 과제가 남아 있습니다. 연구팀은 이를 해결하기 위해 오픈소스 저장소(https://github.com/marcelbinz/Psych-201)를 만들어 전 세계 연구자들의 참여를 기다리고 있습니다.


마무리: 인간의 마음을 향한 첫걸음


Centaur는 인간의 인지 과정을 이해하려는 심리학의 오랜 꿈에 한 발짝 더 다가서게 해줍니다. 이 모델은 단순히 데이터를 예측하는 데 그치지 않고, 인간의 사고와 뇌 활동을 모방하며, 새로운 과학적 발견을 이끌어냅니다. 마치 신화 속의 반인반수 켄타우로스처럼, 인간과 기계의 경계를 넘어선 이 모델은 앞으로 심리학, 신경과학, 그리고 AI 연구의 새로운 지평을 열 것입니다.

keyword
매거진의 이전글AI와 함께 일하기: 생성형 AI가 직업에 미치는 영향