brunch

You can make anything
by writing

C.S.Lewis

by 알바트로스 Feb 06. 2023

ChatGPT는 생각할 수 있을까?

튜링 테스트와 중국어 방

요즘 ChatGPT의 출현으로 인공지능에 대한 열기가 그 어느 때보다 뜨겁다. 인간조차 답하기 힘든 질문에 때로는 인간보다 더욱 인간스러운 답을 내놓기도 하는 ChatGPT를 보고 있으면 어딘지 모르게 섬뜩한 기분이 들기도 한다. 그렇다면 ChatGPT는 정말로 사람처럼 사고하고 세상을 인식하고 있는 것일까? 공지능 학계의 오랜 화두인 '생각하는 인공지능'에 대한 답을 ChatGPT의 구조 그리고 튜링 테스트와 중국인 방 사고실험에서 찾아보고자 한다.




1. ChatGPT가 작동하는 방식


우선 ChatGPT가 어떻게 작동하는지 뜯어보자. ChatGPT는 언어모델(Language Model)에 속한다. 이는 문장에서 가장 자연스러운 단어 시퀀스를 찾아내는 인공지능 모델의 하나이다. 문장 속에서 이전 단어들이 주어졌을 때 다음 단어를 예측하거나, 주어진 양쪽의 단어들 사이에서 가운데 단어를 예측하도록 하는 등의 방식으로 작동하는데 ChatGPT는 인간의 신경망에서 착안한 인공 신경망(Artificail Neural Network) 구조로 만들어져 있다. (출처 : 나의 인공지능 비서 ChatGPT https://brunch.co.kr/@harryban0917/178)


Google이 발표한 언어모델 Transformer의 Decoder(우측) 부분만 사용하는 GPT


이러한 인공 신경망 기반의 언어 모델들은 방대한 양의 데이터를 학습하여 인간과 같은 자연스러운 문장을 생성한다. 초거대화 되고 있는 언어 모델의 매개변수는 날이 갈수록 기하급수적으로 증가하고 있다. GPT 시리즈의 최신 버전인 GPT-3.5에 기반한 ChatGPT는 약 1천7백억 개의 매개변수(variables)를 가지고 있다. ChatGPT는 이전 버전인 GPT-2에 비해 100배 이상 증가한 매개변수의 수만큼 훨씬 정교한 성능을 자랑한다. 정교해진 GPT는 보다 더욱 세밀하게 사람의 의도를 이해하고, 적절한 답을 할 줄 알며, 심지어는 사람처럼 말하는 법까지 배우고 있다.



2. 튜링 테스트 : 인공지능은 이미 임계점을 넘은 것일까?


위키피디아에 따르면 튜링 테스트는 1950년 인공지능의 아버지로 불리는 컴퓨터 과학자 앨런 튜링에 의해 고안된 테스트로, 인간의 것과 동등하거나 구별할 수 없는 지능적인 행동을 보여주는 기계의 능력에 대한 테스트라고 한다. 즉 인간처럼 말하거나 행동해 인간과 구분할 수 없는 기계를 가려내기 위한 테스트다.


튜링 테스트(출처 : wikipedia)

튜링 테스트는 러시아의 연구진이 개발한 인공지능 모델 '유진 구스트만(Eugene Goostman)'의 일화로도 유명하다. 우크라이나 출신의 13세 소년을 상정하고 만든 '유진 구스트만'은 실제로 영어를 모국어로 하지 않는 외국 출신의 소년이 말할법한 영어 문장들을 완벽히 재현해 심사위원들을 완벽히 속이고 튜링 테스트를 통과한 것으로 알려져 있다. 마찬가지로 ChatGPT의 모델이 된 GPT-3.5의 다음버전 GPT 4가 이 튜링 테스트를 통과했다는 이야기가 있다. ChatGPT의 놀라운 답변을 보고 있자면 불가능한 일도 아닐 것이라는 생각이 든다.


그러나 유진 구스 트만에게도 한계점은 있었다. 자신을 우크라이나 출신 소년이라고 소개한 그는 테스트가 끝난 뒤 '우크라이나에 가본 적이 있니?'라는 질문에 '아니요'라는 황당한 대답을 내놓았다. 이를 두고 게리 마커스 뉴욕대 인지과학과 교수는 “튜링 테스트를 통과했다는 건 거짓말을 주고받는 데 성공했다는 의미”라고 비난했다. (출처 : https://www.dongascience.com/news.php?idx=4639)


한편 튜링 테스트 자체에 대한 비판도 많다. 우선 앞의 유진 구스트만의 예에서 처럼 인공지능이 단순히 인간처럼 보이도록 '속이는 것'일뿐 실제로 인간과 비슷한 프로세스를 거쳐 사고를 하는지에 대해서는 알 방법이 없다는 한계점 때문이다. 이는 ChatGPT를 비롯해 최신 딥러닝 모델이 답을 도출해 내는 과정은 블랙박스(blackbox)로 베일에 쌓여있기 때문이다. 또한 비슷한 한계점으로 튜링 테스트에서 '인간을 기계로 오판하는 경우'도 있다.



3. 중국어 방 : 우리는 그들의 머릿속에 들어가 볼 수 없다.


인공지능은 어떠한 프로세스를 거쳐서 답을 내놓는 것일까? 우리는 '중국어 방(The Chinese Room)' 실험을 통해 이에 대해 생각해 볼 수 있다. 중국어 방 테스트는 존 설(John Searle)이 튜링 테스트(즉 기계의 지능 테스트)로는 기계의 인공지능 여부를 판정할 수 없다는 것을 논증하기 위해 고안한 사고실험이다. 


중국어 방 테스트(출처 :https://analyticsindiamag.com/chinese-room-experiment-genereal-ai/)


실험 내용은 이러하다. 방 안에 중국어를 전혀 할 줄 모르는 사람을 넣어둔 후, 중국어로 된 질문과 답변 목록과 필기도구를 제공한다. 이 상태에서 중국인 심사관이 중국어로 질문을 써서 방 안으로 넣는다면, 참가자는 중국어를 전혀 모르더라도 목록을 토대로 알맞은 대답을 중국어로 써서 심사관에게 건네줄 수 있다.


일반인들은 참가자가 중국어를 할 줄 안다고 생각하겠지만, 실제로는 질문도 답변도 모르는 상태에서 기계적으로 대조해 보고 답안을 제출할 뿐이지 정말로 중국어를 알고 대답하는 것은 아니다. 마찬가지로 인공지능이 튜링 테스트에 통과하고 사람에 비슷한 답을 내놓았다고 해서 그 인공지능이 실제로 '사고'를 통해 그 답에 다다랐는지, 혹은 단순히 '학습된 데이터'를 통해 답을 내리게 되었는지에 대해서 우리는 끝내 알 수 없을 것이다.


그러나 존 설의 주장에도 반박하는 이들은 있다. 그것은 즉 답을 추론해 내는 과정이 어떻든 간에 올바른 답에 도출했다면 그것은 인공지능이 사고를 할 줄 아는 것으로 봐야 한다는 주장이다. 이를 시스템 논변(systems reply)라고 한다. 이는 우리가 얼마나 인간중심적인 사고를 하고 있는지 시사해 준다. 세상 만물이 인간과 비슷한 방식으로 작동한다는 프레임을 없애고 본다면, 인공지능이 인간과 똑같은 두뇌 프로세스를 거치지 않아도 어떠한 종류의 사고 능력이나 의식을 가지고 있다고 얼마든지 볼 수 있지 않을까?



4. 결론


방대한 언어 데이터를 학습하여 인간만큼 자연스러운 문장을 구사하는 ChatGPT는 인간의 관점에서 결국 우리 인간을 단순히 '모방'하는 것에 지나지 않을 수 있다. 또한 딥러닝 언어모델의 특성상 ChatGPT의 사고 프로세스는 블랙박스(Blackbox)로 완전히 베일에 가려져 있다. 따라서 ChatGPT가 정확히 어떠한 프로세스를 거쳐서 답을 도출해 내는지는 우리가 알아낼 방법이 없다.


그러나 튜링 테스트와 중국어 방 사고실험이 시사하듯 '인간중심'의 관점을 버리면 ChatGPT는 생각할 줄 아는 인공지능이라고 볼 수도 있다. 비록 인간의 신경망(Neural Network)에서 착안했지만, 인공지능 모델이 정확히 인간과 똑같은 프로세스를 거쳐 생각을 해야만 사고능력을 갖춘 것이라는 편견을 버린다면 인공지능은 우리의 이해를 넘어서는 사고능력을 갖추고 있는 것일지도 모른다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari