brunch

You can make anything
by writing

C.S.Lewis

by 요하네스 한 Dec 12. 2024

고도화된 기계는 인간과 같은 생각을 할 수 있을까?

튜링 테스트부터 커즈와일의 주장까지

'생각하는 기계'는 자동화 기계의 마지막 단계라 할 수 있다. 히 인간 수준으로 생각 기계를 만들기 위한 노력이 계속되어 왔는데, AI 이러한 기술적 바람이 반영된 대표적  중 하나다. 하지만 AI가 등장한 오늘날에도 우리는 쉽게 이야기하지 못한다: AI가 정말 생각을 한다고 말할 수 있을까?


 계가 '인간처럼 생각한다'의 판단 기준은 무엇일까?  질문에 답하기 위해서는 우선 '생각'이 무엇인지 정의해야 하며, '인간'의 생각으로 간주할 수 있는 범주를 정해야 한다. 이는 굉장히 까다롭고 어려운 문제인데, 질문 자체가 철학적이고 상대적이며, 심지어 정적(心情的)이다.  같은 문제에서 한 발 물러서서 앨런 튜링(Alan Turing)"기계는 생각할 수 있는가"라는 질문을 다음과 같이 대체한다: "기계 지능적 행동 보이는 것이 가능한가?"¹ 인간은 생각하는 존재이고, 기계가 그런 인간의 지능적 행동을 수행할 수 있다면, 그 기계가 생각한다라고 여길 수 있다는 재치 있는 논리이다. 튜링의 이 같은 발상은 오늘날에도 '기계가 생각할 수 있는지'를 살피는 판단의 척도가 된다. 이번 화에서는 튜링 테스트를 포함해 5개의 '기계의 지능적 행동에 대한 판단 실험'에 대해 다루며, 생각하는 기계에 대한 논쟁적인 시각과 주장을 펼쳐보고자 한다.


튜링 테스트 (1950)

 튜링 테스트는 컴퓨터의 연산능력이 생각처럼 보일 수 있는 영역에 도달했는지를 판단하는 실험이다. 튜링은 컴퓨터(A)와 텍스트로 대화를 나누는 사람(B)을 상정하고 A와 B의 대화를 판단하는 사람(C)이 A와 B 둘 중 누가 컴퓨터인지를 알아내는 실험을 제안한다. A, B, C는 모두 별개의 방에 위치하며, 대화는 컴퓨터 화면의 텍스트를 통해서 이뤄진다. 즉 자연어를 이용한 대화를 통해 인간과 같이 생각함을 판단하는 것인데, 컴퓨터가 얼마나 자연스럽게 인간의 대화를 방하는지가 판단의 척도가 된다.


튜링은 이 실험을 '흉내 게임'(Imitation game)이라고 소개다.² 기계가 인간과 같은 대화를 얼마나 잘 흉내 내는지의 유사도를 통해 기계의 지능적 행동을 판단하고 자는 수학적 시도이며, 그렇게 판단된 값이 판단자의 기준 이상일 경우 기계가 생각한다고 여길 수 있다는 주장이다.


 튜링 테스트에는 2가지 의의가 있다. 첫째는 "기계가 생각할 수 있는가?"라는 추상적인 질문을 "인간이 그 기계의 수행 능력(지능적 행동)을 충분히 구분할 수 있는가"라는 직관적인 질문으로 대체하는 점이고, 둘째는 인간만의 전유물이라고 여겨왔던 '생각'과 그 개념의 경계에 대해 고찰할 수 있는 계기를 제공다는 점이다.


• ELIZA (1966)

 '엘리자'(또는 '엘라이자')는 조셉 바이젠바움(Joseph Weisenbaum)이 고안한 자연어 컴퓨터 프로그램이다. 엘리자는 '정신 상담 치료사'로 설정되어 있어 질문을 하면 상담사처럼 대답하도록 기능한다. 쉽게 말해 초기 챗봇인 셈인데, 질문을 입력하면 그 질문의 형식과 질문 내의 키워드를 활용하여 간단한 다른 문장을 출력하는 구조이다. 물론 오늘날의 ChatGPT와 비교하면 조악한 수준의 기능이지만 당시만 해도 질문에 대답하는 프로그램은 충격적이었을 것이다. 이와 관련하여 재미난 에피소드가 있다. 엘리자의 개발을 지켜봐 온 바이젠바움의 비서가 엘리자와 이야기를 하는 동안 바이젠바움에게 잠시 방을 나가달라고 부탁한 사건이다. 여기서 바이젠바움은 신의 비서가 마치 진짜 심리상담사와 대화하듯 엘리자와 단둘이 대화하려는 모습을 두고 챗봇이 불러일으키는 착각(delusion)에 대해 논의하기도 한다.³(적어도 바이젠바움의 비서의 입장에서 엘리자는 튜링 테스트를 통과한 셈 아닐까?) 아래 대화는 바이젠바움의 논문에 소개된 ELIZA와 User의 대화이다.


(의역)
User: Men are all alike. (남자들은 다 똑같아)
     ELIZA: IN WHAT WAY (어떤 식으로 그런가요?)
User: They're always bugging us about something or other. (그들은 항상 이런저런 일로 우릴 귀찮게 하잖아)
     ELIZA: CAN YOU THINK OF A SPECIFIC EXAMPLE (구체적인 예시를 생각해 볼 수 있겠어요?)
User: Well, my boyfriend made me come here. (글쎄, 내 남자친구를 날 여기로 오게 했어)
     ELIZA: YOUR BOYFRIEND MADE YOU COME HERE (너의 남자친구가 널 여기로 오게 했구나)
User: He says I'm depressed much of the time. (그는 내가 거의 매일 같이 우울하다고 말해)
     ELIZA: I AM SORRY TO HEAR YOU ARE DEPRESSED (당신이 우울하다니 유감이네요)

(중략)⁴

 

 위 대화를 보면 키워드의 반복을 통 계속적인 질문 유도하고, 제시된 질문에 대한 동조 등으로 대화를 전개해 나감을 볼 수 있다. 하지만 이 간단해 보이는 대화 메커니즘을 구사하는 데에도 꽤나 복잡하고 체계적인 알고리즘이 적용된다. 예를 들어 me는 you로, you는 I 혹은 me로 문장의 구성성분을 바꿔야 하며, 대화에 자주 활되는 단어를 미리 KEY(i) 값으로 메기고 추후 질문에 등장할 경우, 엘리자 안에 내장된 답변 중에서 해당 단어를 기준으로 값을 출력하도록 한다. 이렇게 지능적으로 보이는 답변이 완성되고 인간에게 스스로 질문하게 만든다. 생각함과는 거리가 있다고 할 수 있는데, 히려 엘리자는 입력 데이터(input data)를 기준으로 자연어 대답 모음 사전 중 출력 데이터(output data)를 가지 거대한 백과사전이라 함이 더 적절하겠다.


• 중국어 방 (1980)

 중국어 방 논증은 기계의 지능적 행동은 사실 판단 할 수 없다는 점을 확인하며 튜링 테스트를 논박하는 존 설(John R. Searle)의 사고실험이다.  실험에서는 미리 준비된 중국어 질문과 대답들이 정리되어 있는 방에 오직 영어만 구사 가능한 사람을 위치시킨다. 방 밖의 중국인이 글을 써서 방 안으로 질문이 적힌 종이를 넣으면, 방 안의 영어 구사자는 질문이 생긴 것을 보고 그에 맞는 준비된 답변 종이를 다시 내보내는 형식으로 대화가 진행된다. 짜인 대본에 맞춰 들어온 문제에 반응하는 이 대화를 두고 존 설은 방 안의 영어 구사자가 중국어를 진짜 이해하는지 아닌지 알 수 없다고 말한다. 그리고 이에 비추어 기계가 '지능적 행동'을 하는지 튜링 테스트로는 알 수 없다고 주장한다.


 중국어 방에서 설명하는 메커니즘, 그러니까 수많은 데이터를 기반으로 상황에 따라 정해진 답을 출력하는 구조는 사실 모든 인공지능에서 관찰되고, 심지어 인간의 뇌에서 역시 발견할 수 있다. 또한 중국어의 내용과 문자를 진짜 이해하는지의 문제는 달리 말해 우리는 사랑의 진정한 의미를 알고 표현하는가? 와 같이 "진짜 아는 것이란 무엇인가?"의 문제에 귀결된다. 이 경우 인간조차 그 단어 나아가 언어를 진정 안다고 할 수는 없게 된다. 우리 역시 경험과 기억을 통해 복잡하고 다양한 상황에 맞춰 반응하고 유사하게 표현하고 대략적으로 이해하기 때문이다. 즉 중국어 방 논증은 튜링 테스트의 무용화에는 실패했지만, 인공지능이라는 블랙박스의 구조에 대해 잘 비유하고 설명하는 좋은 예시라 할 수 있다.


왓슨 (2011)

IBM이 개발한 왓슨(Watson)은 2011년 퀴즈쇼 '제퍼티!'(Jeopardy!)에서 최다연승자 켄 제닝스와 상금왕 브래드 러터를 따돌리고 우승을 차지했다. 인간의 언어로 출제되는 문제를 이해하고 또 정답을 맞혀야만 이길 수 있는 퀴즈쇼에서 왓슨이 이길 수 있었던 이유로는 방대한 양의 데이터베이스와 처리능력 그리고 제퍼티!의 규칙이 크게 작용했다. 왓슨은 인터넷에 연결되지는 않았으나, 사전 및 위키피디아 등 2억 페이지 분량에 달하는 4TB 양의 데이터를 사용했고 이 데이터를 무려 1초에 100만 권을 처리 가능한 속도로 처리했다. 또 제퍼티는 표제어 및 주제를 고르고 그에 대한 '힌트'가 주어지면 참가자가 힌트를 이용해 질문문으로 답해야 하는 정형화된 방식로 진행된다.


예를 들어 정치인 주제 중,

사회자: (힌트) "뉴욕주의 52대 주지사이면서, 이탈리아 살레르노에서 이민 온 가정에서 자란 사람은?"

왓슨: "마리오 쿠오모인가요?"


이 점은 인공지능 왓슨이 확률을 계산하기 좋은 순서라 할 수 있다.  왓슨은 자연어 중 특정 단어에 중요도를 매겨 데이터베이스에 검색하고 충분히 높은 확률이 나와야만 대답하는 방식으로 기능하는데, 주제에서 이미 정치인으로 범주를 제한하고 뉴욕, 52대, 주지사, 살레르노, 이민자로 점차 확률을 높여간다.


왓슨의 제퍼티! 우승은 관객에게 기계의 지능적 퍼포먼스를 선보이기에 충분했고 인공지능의 음성인식 및 자연어 처리 수준을 보여주는 계기가 되었다.    


러브레이스 2.0 (2014)

인공지능이 글을 쓰고 작곡을 하는 경지에 이르자, 마크 리들(Mark O. Riedl)은 새로운 튜링 테스트 '브레이스 2.0 테스트'를 제안했다. 이 실험에서는 인공지능의 창작물에 대해 인간 개발자가 설명할 수 없다면, 그 창작물은 창의적인 것으로 본다. 이는 '인간은 인공지능이 창작한 작품이 어떻게 만들어졌는지 알 수 있을까?'라는 질문에 대해 인간 판단자를 기준으로 기계의 창의성을 가늠해 보겠다는 실험이다. 이때 개발자가 설명 불가한 인공지능의 글과 그림은 지능적 시스템에 의한 것이라 보고, 나아가 창의적이라 인정되는 작품을 생산한 기계의 경우, 해당 기계가 인간의 이성적 능력을 지녔다고 볼 수 있다. 러브레이스라는 실험의 명칭은 최초의 프로그래머라고 평가받는 19세기의 에이다 러브레이스(Ada Lovelace)의 이름에서 유래한다.


 지능적 행동에 이어 창의성까지, 확률에 근거한 논증부터 사고실험을 통한 논박까지 생각하는 기계에 대한 논의는 현재진행형이다. 하지만 컴퓨터와 그 프로그램이 고도의 인간 흉내내기를 통해 오늘날에 이른 것을 두고 우리는 기계가 생각할 수 있다고 봐야 한다. 그 이유로는 '인간 판단자의 상대성' 그리고 '인간의 인지에 대한 한계'를 들 수 있다. 


레이 커즈와일(Raymond Kurzweil)은 생각을 '특정한 지능적 수행능력을 보이는 것'으로 평가한다면 모방에 능숙한 컴퓨터를 두고 5살 아이는 '컴퓨터가 생각한다'라고 판단하고, 어른은 이를 부정하는 서로 다른 판단이 가능함을 이야기한다. 기계의 발달하는 흉내내기는 결국 성인 판단자, 특정 분야의 전문가까지 그 수행능력이 인간의 것인지 기계의 것인지 헷갈리게 할 정도의 수준까지 발전할 것이고, 종래에는 인간 판단자의 판단 자체가 사실상의 판단 기준으로써의 신뢰도를 잃게 될 것이다.


우리의 인지는 객체를 완전히 알 수 없다. 당장 내 옆 사람에 대해서도 마찬가지다. 우리는 자기 자신이 의식을 가진 존재이기에 스스로 생각한다는 것을 안다. 그리고 이를 근거로 다른 사람들도 '생각할 것'이라고 추측한다. 이 추측은 타자에 대한 관찰로 형성된다기보다 선험적으로 자리한다. 그렇기에 기계의 경우도 얼마든지 타자의 자리에 대입할 수 있다. 사람과 상황에 대해 이해하고 응답하며, 진짜 인간과 같이 지능을 보여주는 기계 역시 생각하고 있다고 추측되는 타자가 될 수 있다. 생각함은 결국 그 의식의 주체성에 달려있으며, 그 소유자에 의해서만 주장될 수 있다.


고도화된 기계는 인간과 같이 생각하지 않는다. 기계만의 방식으로 생각할 것이다. 그리고 그 고도화된 기계가 스스로 생각한다고 주장한다면, 우리는 그를 생각하는 주체로 받아들여야 할지도 모른다. 기계의 생각은 인간이 판단할 수 있는 영역이라기보다, 그 생각을 정의하는 주체에게 달려있기 때문이다. 물론 기계가 스스로 '생각'한다고 자의식을 갖는 것은 또 다른 차원의 문제이지만 말이다.




각주

1) 앨런 튜링은 1946년 <Intelligent Machinery>에서 이와 같은 질문을 제안한다.

2) 튜링이 1950년 발표한 <Computing Machinery and Intelligence>에서 등장하는 등장하는 실험으로 흔히 '튜링 테스트'라고 알려져 있다. '흉내 게임'이라는 단어는 참고문헌의 표현을 그대로 따른다.

3) 바이젠바움의 비서는 엘리자가 알고리즘에 따라 사용자의 단어를  반복하는 프로그램임을 알고 있었다. 생산적인 대화 자체가 불가능함을 알면서도 상담과 같은 상황을 스스로 만들고 요구하는 상황에 바이젠바움은 의미를 두고 관찰했다. 실제로 그는 엘리자 연구 이후 인공지능이 불러올 인지적 위험을 강조하며 자신의 입장을 선회한다.

4) 바이젠바움 엘리자와 관련한 그의 논문에서 직접 언급한 대화 예시를 인용함

5) 중국어 방은 컴퓨터의 정보 처리 과정을 비유하는 예시이다. 중국어는 자연어를 그리고 방 안에 있는 영어만 사용할 줄 아는 자는 컴퓨터를 의미한다. 존 설은 중국어 방 논증을 통해 컴퓨터가 겉보기에 지능적 행동을 하는 것처럼 보여도 행동이 발생하는 그 상황과 처리되는 문제를 사실 이해하지 못함을 보여주고자 했다.

6) 네이버 지식백과 <컴퓨터의 역사 - 왓슨>을 인용함

7) 마틴 데이비스. (2023). 오늘날 우리는 컴퓨터라고 부른다. p.298

8) 인간 개발자가 인공지능의 창작임을 판단하는 것은 일정 부분 인간 개발자의 주관이 포함다. 한 창의성은 독창적이어야만 인정될 수 있는지, 모방을 기반으로 한 창작은 인공지능의 것인지 인간의 것인지 어떻게 구분할 수 있는지 등에 대한 추가적인 논의가 가능하다.

9) Raymond Kurzweil: Can a machine think?, in; The age of intelligent machines. MIT press, Cambridge MA, (1990), S.460-461


참고 문헌

1) 앨런 튜링. (2022). 지능에 관하여. (옮긴이) 노승영. HB Press. p.25

2) Ibid. p.67

3) Jo Adetunji: My search for the mysterious missing secretary who shaped chatbot history, in; The Conversation, (22. März. 2024)

https://theconversation.com/my-search-for-the-mysterious-missing-secretary-who-shaped-chatbot-history-225602

4) Joseph Weisenbaum: ELIZA—a computer program for the study of natural language communication between man and machine, in; Commun. ACM 9, 1, Cambridge Massachusetts,(Jan. 1966), pp.36-45

5) John R. Searle: Mind, Brain and Programs, in; The Behavior and Brain Sciences 3, (1980), S. 417-457

6) 네이버 지식백과 <컴퓨터의 역사 - 왓슨>

https://terms.naver.com/entry.naver?docId=1691756&cid=42171&categoryId=42187

7) 마틴 데이비스. (2023). 오늘날 우리는 컴퓨터라고 부른다. (옮긴이) 박상민. 인사이트. p.298

8) Riedl, Mark O.: The Lovelace 2.0 Test of Artificial Creativity and Intelligence. ArXiv, 2014

9) Raymond Kurzweil: Can a machine think?, in; The age of intelligent machines. MIT press, Cambridge MA, (1990), S.460-461

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari