brunch

You can make anything
by writing

C.S.Lewis

심리학자의 눈으로 보는 AI

대니얼 카너먼의 시스템 1, 시스템 2를 기반으로 한 생성형 AI의 미래

9.11과 9.9 중에 어떤 숫자가 더 클까요? 얼마 전부터 AI에 관심 있는 사람들 사이에 화제가 되는 얘기입니다. 당연하게도 9.9가 더 큰 숫자지만, chatGPT에게 물어보면 9.11이 더 큰 수라고 대답합니다. 


지금까지 누적된 수많은 정보들로부터 학습하고, 순식간에 전 세계의 최신 정보를 조사하고, 어려운 논문도 쉽게 요약할 수 있는 AI가 왜 이런 단순한 질문을 틀리게 대답할까요? 수많은 직업을 대체할지 모른다는 예상이 대세를 이루고 있는데 이런 기본적인 숫자도 모르는 엉뚱한 실수는 무엇을 의미할까요?


심리학자이자 행동경제학의 아버지로 불리는 대니얼 카너먼의 이론을 활용하면, 이 현상과 AI 기술의 흐름을 이해할 수 있습니다. 



1. 기계학습과 AI를 간단히 이해하기


* 이미 LLM이나 인공신경망에 대해 친숙하신 분들은, 이 챕터는 넘어가셔도 됩니다.


제 삶에 AI 기술이 처음으로 영향을 끼친 건 3번째 창업이었던 테크스타트업 '폴라리언트' 시절입니다. 센서기술을 연구하는 스타트업이었는데, 센서 데이터의 오류 편차가 커서 처음에는 수학적으로만 접근하다가 어느 시점부터 인공신경망(NN, Neural Network) 기반의 기계학습(Machine Learning) 기술을 도입했었습니다. 결과는 아주 좋았고, 그래서 더 파고들었었죠. 벌써 10년 가까이 된 얘기라 기술적으로 그 시절 저희가 사용한 인공신경망 기술은 요즘의 LLM(Large Language Model, 대형언어모델)과 비교하면 거의 구석기 수준의 기술이죠. 하지만 아주 큰 틀에서 보자면 철학이 비슷한 기술입니다. 그 철학을 재밌게 표현하자면 이렇습니다.


이게 왜 되는지는 모르지만 엄청 잘돼.

AI는 기계학습 기술을 바탕으로 하고, 기계학습은 데이터를 통해 기계가 스스로 학습하게 만드는 기술입니다. 기계학습 방식과 반대되는 방식은 전통적인 프로그래밍, 또는 알고리즘 방식입니다. 간단히 예를 들자면, 곱하기가 뭔지 모르는 사람한테 '앞에 있는 숫자를 반복해서 더하는데 그 횟수를 뒤에 있는 숫자만큼으로 하면 돼'라고 알려주고 곱셈을 시키는 게 전통적 방식입니다. 한편 구구단 표를 던져주고 곱셈의 원리를 알아서 알아내라고 하는 게 기계학습 방식이죠. 


기계학습 방식에도 여러 가지 접근이 시도됐었는데 아무래도 수학적인 이론을 바탕으로 한 접근이 많았습니다. 이렇게 접근하면 어느 시점에 기계가 곱하기의 원리를 이해했을 때, 논리적으로 어떻게 이해했는지를 사람들이 분석해 볼 수 있었죠. 당연히 그렇게 접근해야 한다고 생각하는 이들이 많았습니다. 게다가 예전에는 컴퓨터 성능이 낮았기 때문에 최대한 효율적인 구조를 만들어놓고 학습을 시켜야 한다는 한계도 있었죠. 


다른 한편에서는, 학습이라는 게 '두뇌'에서 벌어지는 일이니 생물학적으로 두뇌가 어떻게 학습하는지를 파악하고 이걸 따라 하겠다는 방향의 접근이 있었습니다. 자세한 설명은 생략하겠지만 이 방식은 20세기 중반부터 언급됐으나 너무 많은 컴퓨터 연산을 필요로 하는 방식이어서 오랜 시간 동안 묻혀있었죠. 그러다가 21세기에 들어 컴퓨터 성능이 워낙 좋아지다 보니 다시 조명을 받게 됐습니다. 연구를 하다 보니 학습을 너무 잘했거든요. 문제는, 이 방식은 곱하기의 원리를 학습했다고 할 때 기계가 논리적으로 어떻게 이해했는지를 해석할 수 없다는 겁니다. 


복잡한 함수식도 간단하게 학습하고, 강아지와 고양이도 구별하고, 배경에서 사람을 정확히 분리하고, 사진에서 숫자나 글자를 읽어내는 등등을 시켜봤는데 너무 잘하는 거죠. 더 중요한 건, 연구를 하다 보니 그런 성능을 만들어내는 데에 연산량을 별로 많이 쓰지 않게 된 거죠. 그래서 휴대폰은 물론이거니와 스피커, 다양한 가전제품과 전자기기 등에 원가를 높이지 않고도 이런 기능을 탑재할 수 있었습니다. 그런데 그걸 어떻게 이해해서 어떻게 처리하는지는 알 수 없습니다. 그냥 잘 해내니까 믿고 쓰는 거죠.


지금의 LLM 기술을 이런 관점에서 이해하셔도 큰 지장이 없습니다. 엄청나게 많은 '글'을 던져주고 이해하게 시켰는데 계속 뭔가 이상하게 하다가 어느 순간 그걸 해냈습니다. 이 녀석이 각각의 단어를 어떻게 이해하고 있는지, 문법을 어떻게 이해하고 있는지는 사람이 해석할 수 없습니다. 


그냥 말을 시켰더니 말을 잘하는 거죠. 그것도 엄청나게요. 


여기서 심리학 이론이 등장합니다.



2. 대니얼 카너먼의 시스템 1, 시스템 2


대니얼 카너먼(Daniel Kahneman, 1934년 3월 5일 ~ 2024년 3월 27일)은 이스라엘 출신의 미국 심리학자이자 행동경제학의 아버지로 불리는 학자입니다. 그의 저서 중 <생각에 관한 생각(원제: Thinking, Fast and Slow)>는 세계적 베스트셀러로, 앞서 잠깐 언급한 인간의 2가지 시스템, 시스템 1과 2에 대해 설명하는 책입니다. 각각의 특성은 이렇습니다. 


시스템 1

빠르고 자동적이며 직관적인 사고방식

일상적인 상황에서 즉각적으로 반응

무의식적으로 이루어지며, 별도의 노력이나 의식적인 생각을 요구하지 않음


시스템 2

느리고 논리적이며 의식적인 사고방식

복잡한 문제를 해결하거나 중요한 결정을 내릴 때 사용

의식적인 많은 노력을 요구하며 주의를 기울여 사용


일상적인 예를 들어볼까요. 운전을 하시는 분들은 이 두 시스템의 차이를 쉽게 이해할 수 있습니다. 늘 운전하던 경로를 다닐 때에 우리는 신호등에 따라 멈추고 서기를 하고, 위치에 따라 차선을 변경하지만 거의 자동적으로 그런 결정과 행동을 합니다. 그런 과정에서 사용하는 시스템이 전형적인 시스템 1입니다. 반대로 처음 가보는 길을 가거나, 남의 차를 운전하는 데 계기판의 배치나 기어의 위치가 다를 때 훨씬 머리를 많이 쓰게 되죠. 그때는 시스템 2가 개입하는 것입니다. 


언뜻 보기에는 시스템 2가 더 지적이고 고등한 것으로 느껴질 수 있지만, 시스템 2는 말하자면 아주 비싼 시스템입니다. 주의력과 노력을 많이 필요로 하는 것이죠. 시스템 2만 쓴다면 우리는 몇 시간도 되지 않아 머리에 과부하가 와서 녹초가 돼버릴 겁니다. 반대로 시스템 1에 대해 본능적이고 비논리적인 열등한 것으로 느껴질 수 있지만, 사실 엄청나게 효율적인 시스템입니다. 즉, 시스템 1,2 우열관계가 아니라 상호 보완적 관계인 셈이죠.


그런데 이 두 시스템의 결론이 상충되는 경우가 있습니다. 직관적으로 어떤 행동을 하고 싶지만 이것저것 다 따져보니 하면 안 되겠다고 생각하는 경우, 또는 반대로 깊이 고민한 결과 어떤 행동을 하는 것이 옳은데 직감적으로 하면 안 되겠다는 느낌이 드는 경우가 있죠. 때로는 고민의 결과가 옳기도 하고, 때로는 직감이 옳기도 합니다. 그래서 우리는 어느 한쪽의 결정만을 따르지 않고 때에 따라 다르게 활용합니다. 대체로 일상적인 결정에는 시스템 1을, 중요한 결정에는 시스템 2를 쓰는 경향이 있고, 종종 예외적인 결정을 하기도 합니다. 


그런데 우리는 종종 시스템 2만이 '이성'이고 그것이 인간의 의사결정을 좌우한다고 착각하곤 합니다. 고전 경제학이 그렇죠. 정보가 충분하다면 모든 인간이 합리적 선택을 한다고 전제했고, 여기서의 '합리적'이란 것은 시스템 2의 특성입니다. 실제로는 모든 사람들은 시스템 1,2를 모두 사용하기 때문에 정보가 충분하다고 해도 시스템 2의 결론과 상충하는 시스템 1의 결론을 선택할 수 있습니다. 그래서 고전 경제학으로는 설명할 수 없는 현상들이 벌어지게 되는 거죠. 그 가운데 인간은 이 2가지 시스템을 모두 사용하고 있고, 그 사실에 기반하여 인간의 행동을 설명하고 예측하는 것이 훨씬 정확하다는 것을 대니얼 카너먼이 밝혀낸 것입니다. 


자 그럼 이 내용이 AI 기술과 어떻게 연결될까요?



3. LLM은 시스템 1을 닮았다?


시스템 1은 경험을 통해 강화됩니다. 운전을 한 번도 해보지 않은 사람은 시스템 1을 운전에 활용할 수 없습니다. 처음에는 자동차의 조작법과 교통법에 대한 지식을 습득하고 시스템 2를 써서 운전을 시작합니다. 시스템 2는 수많은 정보를 의식적으로 처리하면서 가장 타당한 결론을 도출합니다. 그래서 초보운전자에게 말을 걸면 운전에 방해가 됩니다. 시스템 2를 쓰기 위해 시각, 촉각, 청각 등 모든 감각의 정보를 총동원해서 처리하고 있는데 운전과 무관한 말을 듣고 그에 대한 답을 생각해 낼 자원이 부족한 거죠. 


그러다 경험이 쌓이면 자연스럽게 시스템 1이 활용됩니다. 그러면 정보들이 자동으로 처리되고 시스템 2는 여유를 갖습니다. 활용할 자원에 여유가 있으니 운전하면서 대화하는 정도의 멀티태스킹은 간단하게 해냅니다.  운전을 많이 해본 사람일수록, 멀티태스킹의 범위도 넓어집니다. 즉, 경험의 양은 시스템 1을 더 정교하게 만들고, 시스템 1이 할 수 있는 처리범위를 넓힙니다. 


시스템 1의 강화과정을 이런 식으로 비유해 보죠. 복잡한 행동을 반복하다 보니, 뇌신경의 복잡한 신호들이 어떤 패턴을 만들어내고, 그 패턴이 하나의 회로를 구성하게 된다. 그리고 그 회로가 더욱 강화되면 아주 적은 에너지만 사용하고 아주 빠르게 작동하면서도 결과는 더 정확해진다. 더욱더 강화되면 똑같이 적은 에너지만으로도 더 복잡한 행동을 빠르게 수행할 수 있다. 수많은 경험을 통해 형성되는 자동회로. 이 점은 앞서 설명한 인공신경망 방식의 기계학습이나 LLM의 특성과 유사성이 있습니다. 


LLM은 천문학적인 양의 데이터를 바탕으로 학습하는 과정에서, 인간이 생각하는 지적 수준이나 단계를 고려하지 않습니다. LLM은 초등학교 교과서 수준부터 학습해서 차근차근 중고등학교, 학사, 석사 수준으로 학습하지 않았습니다. 유아용 동화부터 박사 논문까지 한꺼번에 학습했죠. 어마어마한 양의 텍스트를 여러 단계에 거쳐 추상화하고, 그 추상화된 정보들의 관계가 거대한 모델로 구성돼 있습니다. 이 모델은 어떤 질문이 주어졌을 때, 주어와 동사의 관계를 문법적으로 해석하지도 않고, 그에 따른 대답의 논리적 전개를 따지지 않습니다. 그저 질문이라는 신호가 주어졌을 때 가장 적절한 답변이 주르륵 나오는 것이죠. 


여기서 인간의 시스템 1과 LLM의 유사성을 하나 더 찾아볼 수 있습니다. 거의 자동적으로 작동하지만, 작동과정을 논리적으로 인식하고 있지 않다는 점입니다. 어떤 초보 운전자가 이런 질문을 한다고 생각해 보죠. 

"사거리에서 좌회전을 할 때 핸들을 몇 도나 돌려야 돼요?" 

운전을 하면서 수없이 많은 좌회전을 하지만, 내가 내 차의 핸들을 각도 상으로 몇 도 정도 돌리는지 바로 답변이 떠오르시나요? 실제로 시스템 1이 작동할 때는 도로의 폭이나 다른 차들의 위치정보를 종합해서 자동적으로 작동합니다. 핸들을 몇 도 돌리면 차가 몇 도 회전한다는 식의 수식을 외우고 있는 것이 아닌 것이죠. LLM도 학습과정이 구성한 모델구조에서 답변이 생성되는 것이지, 그 무한히 많은 정보들의 관계를 하나하나 논리적으로 인식하고 있지는 않습니다. 


그 결과, 시스템 1과 LLM 모두 엉뚱한 실수를 하곤 합니다. 시스템 1은 주로 기존 경험과 다른 환경을 맞이했을 때 발생합니다. 자동차가 오른쪽으로 통행하는 한국에서만 운전을 하다가 일본이나 영국에 가면 시스템 1이 자꾸 오른쪽 차선으로 가려고 하는 것을 시스템 2가 조절하게 됩니다. 군대에서 휴가를 나오면 자기도 모르게 군대식 말투를 쓰기도 하죠. 새로운 환경의 경험이 충분히 누적되어야 기존 시스템 1의 회로가 수정되어 이러한 실수를 멈추게 됩니다. 


LLM의 실수도 비슷합니다. 흔히 말하는 '할루시네이션(Hallucination, 환각 또는 환영)'이라 불리는 LLM의 실수는 그 모델이 학습한 데이터 상 자연스러운 대답이 실질적인 사실관계에 맞지 않은 경우입니다. 최신 정보를 조사하지 않고 과거의 데이터로 학습한 모델만을 사용했던 GPT-3 버전이 이 실수가 잦았던 것은, 애초에 논리적 판단이 아니라 모델 상의 답변을 자동적으로 뱉어내는 LLM의 특성상 당연했던 것이죠. 


그런 점에서 서두에 언급한 9.11과 9.9 문제를 다시 생각해 볼까요?


9.11과 9.9의 크기관계는 잘못 답변했지만 다른 소수들의 크기비교는 잘하는 모습을 볼 수 있습니다. 단순히 소수점 아래 몇 자리를 비교해야 하는지를 혼동한 것이 아니라는 의미이죠. 이 실수에는 더 복잡한 맥락이 숨어있는 것입니다. 


시스템 1과의 연관성을 바탕으로 하나의 가설을 세워보겠습니다. LLM이 학습한 수많은 데이터 중에 아마도 '9.11'이라는 텍스트는 숫자 '구쩜일일' 뿐만 아니라 2001년 발생한 테러를 언급하는 '9월 11일'의 의미로 사용된 데이터도 많았을 것입니다. 미국에서는 주로 9/11로 표기하지만 세계적으로 날짜를 표기하는 방법 중 '월. 일' 형태를 사용하는 나라가 적지 않고, 워낙 영향력이 컸던 사건인 만큼 데이터의 양이 많았을 겁니다. 이로 인해 9.11과 9.9를 비교하는 질문에 대해 단순한 숫자가 아닌 날짜 표기의 맥락이 작동했을 수 있습니다. 


물론 LLM은 그런 의도를 갖고 작동하지 않으므로, 이 가설이 맞을지 틀릴지는 모를 일입니다. 



4. 그렇다면 AI의 미래는?


현재의 AI가 시스템 1을 닮았다는 저의 주장은 사실 과학적인 근거를 갖고 있지는 않습니다. 다만, 각각이 형성되고 강화되는 과정에서 유사성이 있고, 결과적으로 지니게 되는 특징 상의 공통점이 있는 것이죠. 우선은 이 주장이 맞다는 전제하에 몇 가지 생각을 이어보겠습니다. 


시스템 1과 닮았다면 논리적 완결성이 필수적인 일에는 일반적인 AI가 사용되기 어려울 겁니다. 천문학적인 학습 데이터를 하나하나 통제할 수 없으므로 그 모델이 어떤 맥락의 데이터를 더 우세하게 지니고 있는지 파악할 수 없습니다. 이는 그 모델이 취약한 맥락을 예상할 수 없다는 의미가 되고, 테스트를 해보기 전에는 얼마나 실수를 할지 전망하기 어렵다는 것이죠. 그래서 예상하지 못한 실수를 받아들일 수 없는 분야, 예를 들어 의학적인 수술, 우주공학, 법조계 등의 분야에서는 인간을 대체하지 못할 겁니다. 대신, 일반적 AI모델이 아니라 해당 분야의 데이터만을 학습한 전문적 모델이라면 사용이 가능할 겁니다. 


이를 바탕으로 AI가 만약 인간의 직업을 대체한다면 어떤 분야를 먼저 대체할지에 대해 역으로 생각해 볼 수 있습니다. 시스템 1을 정말 닮았다면, 인간이 수행하더라도 시스템 1이 많이 사용되는 경우에 AI가 먼저 적용될 것이라 전망해 볼 수 있습니다. 이는 특정한 직업으로 한정할 수는 없을 것입니다. 예를 들어 은행 창구 업무를 하는 은행원은 분명 단순반복 업무의 비중이 적지 않지만, 고객을 응대하는 과정에서나 그날의 결산을 하는 과정에서 예상치 못한 예외적인 상황이 발생할 경우 시스템 2를 사용해서 그 문제를 해결해야 하는 경우도 많겠죠. 


그런 면에서 '내가 하고 있는 업무 중에 시스템 2가 차지하는 비중'을 검토해 보는 건 자신이 일하는 분야에 대해 AI의 진입이 얼마나 용이한지를 점검하는 데에 도움이 될 겁니다. 이 맥락에서 생각해 보면 가까운 미래에는 시스템 1에 적합한 업무를 주로 AI가 수행하고 예외적인 상황이나 특수한 상황에서 사람이 보완하는, AI와의 협업 구조가 보편화되는 걸 상상해 볼 수 있겠습니다. 


다른 한편으로는 시스템 2를 닮은 새로운 구조의 AI 기술이 등장하는 미래도 생각해 볼 수 있겠죠. LLM의 원리와 전혀 다른 접근을 통해 학습과정에서 형성되는 개념들의 논리적 관계를 인지하는 새로운 AI기술이 등장할지도 모르겠습니다. 여기서 예상할 수 있는 건, 사람도 시스템 2를 사용할 때 훨씬 많은 에너지를 사용하기 때문에, 시스템 2를 닮은 AI모델 역시 훨씬 많은 연산양을 필요로 할 것이라는 점이죠. 그런 면에서 혹시 양자컴퓨터의 발달과 시스템 2를 닮은 AI가 서로 연결되어 있을지도 모르겠습니다. 




매거진의 이전글 지금 생성형 AI를 써야 하는 이유
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari