ep5. 사고 실험
미래를 전망하기 위해서는 현재에 대한 이해가 필수이다.
기술적인 내용을 살펴보기 전에 누구나 던져볼 수 있는 본질적인 질문이 현상을 이해하는데 도움이 될 수 있다.
잠시 인공지능의 과거로 돌아가보자.
1950년도에 앨런 튜링(Alan Turing)은 ‘튜링 테스트’를 고안했다.
이 실험의 요지는 '인공지능'의 평가자가 ‘인공지능’과 인간을 구분할 수 없을 때, 기계(인공지능)에게 ‘생각할 수 있는 능력’이 생겼거나, 최소 인간의 사고를 흉내낼 수 있는 것으로 판단하겠다는 것이었다.
그로부터 30년이 지난 1980년 캘리포니아 버클리 대학의 철학교수 존 서얼 교수는 ‘중국어 방 실험(John R. Searle’s Chinese Room Experiment’)’을 통해, 이 ‘튜링 테스트’를 패러디했다.
이 사고 실험, 생각실험 속에서 어떤 방에 한 사람이 있다.
이 사람은 중국어를 할 줄 모르고, 이 방안에는 이 방으로 들어오는 중국어 요청사항을 어떻게 처리해야 하는 지 매뉴얼이 있다. 밖에서 중국어 요청사항이 들어오면, 그 안의 사람은 매뉴얼대로 분류하여 정해진 답변을 밖으로 전달한다. 그리고 이 방 밖에 사람들은 이 방 안에 중국어를 할 줄 아는 사람이 있다고 생각한다.
즉 중국어를 모르지만, 중국어를 할 줄 아는 것처럼 보이게 하는 게 가능하다는 것을 보여준 것이다.
존 서얼 교수가 이 사고실험을 통해 주장하고자 하는 바는 이와 같다.
SYNTAX IS NOT SEMANTICS.
[언어라는 기호]를 다룰 줄 아는 것과 [의미를 아는 것]은 다르다.
존 서얼 (John Searle)
이번엔 내가 생각해본 사고 실험이다.
산책을 하다가 앵무새 두 마리가 나무에 앉아 있는 것을 보게 됐다고 가정하자.
한 앵무새가 말한다.
“우리가 모든 포유류들을 모아사 인류를 멸망시키자.”
이 말을 들은 우리는 어떻게 생각해야할까?
앵무새가 정말 동물들을 소집해서 인간을 말살시킬 계획을 구상하고 실행할 것을 두려워 해야 할까?
아니면 앵무새 주인이 이상한 대사를 훈련시켰다고 생각해야 할까?
사고실험의 장면을 바꿔보자.
이번엔 정수기이다.
정수기에 감응센서가 있어서 누군가 다가오면
“더우시죠? 물 한 잔 드세요.” 라는 음성이 흘러나온다.
이런 정수기는 과연 사용자를 ‘배려’하는 것일까?
다시 한 번 사고실험의 장면을 바꿔보자.
이번엔 가정 집에서 인간형 로봇, 휴머노이드가 물을 따라주고 있는 장면이다.
이 휴머노이드는 ‘날 배려하는 마음’으로 봉사하고 있는 것일까?
어쩌면 아직도 이 차가운 금속재질의 외형을 가진 로봇에게 마음이 있다고 속지 않을 수 있겠다.
로봇의 디자인을 바꿔보자.
그렇다면 이번엔 이런 디자인의 휴머노이드 로봇이다.
아이에게 물을 따라주고 있다.
만약 아주 어렸을 때부터 이런 휴머노이드, 이런 인공지능 로봇을 접하며 자라는 아이들은 어떻게 생각하게 될까?
점점 현실적이 되어가는 휴머노이드.
안면근육, 표정을 구현할 수 있는 기술이 발달하고, 자연어 처리능력이 발달한다.
표면적인 기능에만 집중할 경우, 기계의 자연어 처리가 능숙해지면 능숙해질수록 우리는 기능과 본질을 동일시 하는 우를 범하게 될 가능성이 높다.
사실 튜링 테스트를 통해 기계의 지능 발현 여부를 측정할 수 있다는 전제 자체가 문제일 수 있다.
기능을 모방할 수 있다고
그 기능의 근원이 되는 ‘존재’가 구현되었다는
결론을 내릴 수 있는 걸까?
'속일 수 있다면', '구분 할 수 없다면'
지능이 발현했다고 판단해도 되는 걸까?
인간이 개발한 인공지능에 ‘자아’가 생기고, 그들의 ‘자의적인 판단’에 의해 인류의 멸망하는 미래를 두려워 하는 것은 과학적 근거를 가진 우려일까, 아니면 공상과학의 영향을 받은 ‘전문가’들의 견해일까?
2020년 노벨 물리학상을 수상한 로저 펜로즈 박사는 말한다.
컴퓨터 장치는 정신을 발달 시킬 수 없다고.
우리 인류는 그저 ‘똑똑하기 때문에 의식이 생긴 게 아니라고.
그는 컴퓨터에 대해서 어떤 업무를 자동화 할 수 있는 훌륭한 장치이고, 이해력이 필요없는 모든 것을 할 수 있게 해준다고 표현했다. 그렇게 우리가 말하는 ‘이해력’은 컴퓨터에 없다고 주장한다.
이해하기 위해서는 의식이 먼저 있어야 합니다.
너무나 당연한 말이지만 우리는 이제 이런 걸 명시하지 않으면 잊을 수 있는 세상에 살아가게 되었다.
2025년 6월 7일에 공개된 애플의 연구 역시 이런 그의 주장을 뒷받침한다.
논문의 제목이 현단계의 인공지능의 본질을 꿰뚫었다.
거대언어모델(LLM)을 통해 구현되는 챗GPT과 같은 인공지능을 뛰어넘는 ‘추론모델’의 현재에 대한 연구이다.
추론능력이 필요한 네 종류의 퍼즐게임을 통해 추론 모델로 불리는 인공지능 서비스들을 테스트 했다.
그 결과 클로드 3.7, 딥시크 R-1 의 성공률은 난이도가 낮은 1-3단계에서만 성공 하고 그 이후 레벨에서는 성공률이 급감했다는 걸 볼 수 있었다.
애플이 발표한 보고서는 이렇게 결론을 내린다.
“ 이러한 모델들은 일정 수준 이상의 복잡성에서는 일반화 가능한 추론 능력을 개발하지 못했다. …
이러한 통찰은 LRM(거대추론모델)의 능력에 대한 기존의 가정을 도전적으로 재고하게 하며, 현재 접근법들이 일반화 가능한 추론에 있어 근본적인 장벽에 부딪히고 있음을 시사한다.
아이들을 키우며 종종 아이들이 의미를 모르는 단어를 뱉는 순간을 마주하게 된다.
종종 어디선가 섬뜩한 단어를 줏어듣고 사용하기도 한다.
현 단계의 인공지능, LLM(대형언어모델)들은 그저 많은 단어를 기억하고 그 단어들을 순서대로 배열할 수 있는 '어린아이' 같은 게 아닐까? 아이들에겐 생명이 있고 의식이 있고 그 위에 지식이 쌓이고 뇌를 포함한 신체가 발달한다. 그런 '지능'을 인공지능과 상응하게 이해하려면 우리 인류는 아마 '지능'이란 단어를 재정의 해야 할 것이다.
나의 예상:
(1) 늘 그래왔듯이 단어의 재정의 하는 시도는 아마 계속 해서 이뤄질 것이다.
(2) AGI의 개발을 전제로 한 AI회사들은 어느 시점에 그 수익성을 달성하지 못하고 버블과 함께 붕괴, Narrow AI를 통해 현실에서 사용되는 AI회사 (예:PLTR) 는 버블을 뚫고 살아남지 않을까?