brunch

You can make anything
by writing

C.S.Lewis

by 정중규 Aug 20. 2023

문장을 완성시키는 챗GTP 능력, 지능이라할 수 있을까

Q. AI 기술을 개발해 활용하기 위해 반드시 풀어야 하는, 하지만 현재로선 풀기가 어려운 난제로는 어떤 것을 꼽을 수 있을까요?


AI가 내놓은 결과물이 어떤 과정을 거쳐 나왔는지 알 수가 없는, ‘설명 가능성’의 문제가 당면한 과제인 것은 맞습니다. 그런데 만약 난제를 딱 하나만 꼽아 보라고 하면 (기술측면에서는) 생성형 AI가 ‘아직 사람 같지 않다’는 것입니다. 공학적인 최대 난제이죠. 예컨대 AI는 사람만큼 에너지 효율적이지 않습니다. 이세돌과 알파고의 대국 때도 구글 컴퓨터는 수십만 와트를 썼는데 이세돌은 커피 한 잔이면 충분했습니다. 그리고 더 중요한 건 적응력의 차이인데요. 사람은 다양한 상황에 놓이면 그에 맞게 적응과 응용을 할 수 있는 존재라면, 현재의 인공지능은 굉장히 좁은 범위의 학습된 일들만 할 수 있습니다. 결국은 AI 기술이 일반인공지능(AGI)까지 나아갈 수 있을 것인가가 가장 큰 도전 과제가 될 것입니다.


Q. 일반인공지능, ‘인간 같은 인공지능’이란 무엇을 뜻하나요?


적응력과 응용력 차원에서 인간은 새로운 것을 계속해서 학습해 나가고, 이쪽에서 학습한 걸 저쪽에서 응용하는 게 의식하지 않아도 가능하잖아요. 인공지능은 아직 그런 게 잘 안 됩니다. 그래서 그 분야만 연구하는 ‘연속 학습[1]’이라는 분야도 있고요. 예컨대 인간은 물리를 잘하면 수학도 잘하고, 영어를 하면 스페인어도 쉽게 배울 수 있고요. 이런 ‘전이 학습’[2] 같은 것이 아직 기계는 많이 약합니다. 인간 지능에 비해 많이 떨어지는 것이죠. 또 사람은 뇌를 쓰는데 드는 에너지에 비하면 챗GPT 같은 생성형 AI를 구동시키기 위해서는 엄청나게 많은 양의 에너지가 소모됩니다.


Q. ‘인간 같은 인공지능’은 어떤 형태를 띨까요? 현재의 챗GPT 같은 생성형 AI는 이 단어 다음에 무슨 단어가 올지 추론해서 빈칸을 채우며 문장을 완성해 나가는 식인데, 빈칸 채우는 능력이 무슨 지능이냐며 생성형 AI의 능력이 과대평가되었다는 회의적 시각도 있습니다.


그에 대해 오픈AI의 공동창립자이면서 현재는 오픈AI 수석 과학자인 일리야 수츠케버가 한 대담 프로그램에서 한 말을 소개하겠습니다. 셜록홈스라는 추리 소설이 있는데 예를 들면 탐정이 범죄자들이나 피의자들, 의심 가는 사람들 모아서 인터뷰를 합니다. 너 몇 월 며칠에 어디에 있었어? 뭐 했어? 이런 정보들을 다 조합한 다음에 이 사람들을 한 방에 다 모이라고 하잖아요. 그러고 나선, 이건 이렇고, 저건 저렇고 이러저러해서 범인은 당신이야,라고 합니다. 그런데 추론의 조각들을 모으면 범인이 누군지는 이미 밑줄이 쳐져 있는 거나 다름없잖아요. 그런데 이때 셜록홈스 보고 당신 프로바블리스틱(개연성)에 의거해 추론해서 정답을 맞힌 거니까 지능이 없다,라고 할 수 있겠습니까? 같은 논리로 고도의 학습을 통해 문맥에 걸맞게 이 단어 뒤에 올 다음 단어를 추론해 빈칸을 메꾼다는 건 사실 보통 일이 아닌 거예요. 

여기서 아이 엠 어 다음에 나올 단어를 채우려고 해도 앞의 문맥을 알아야 하고, 영어 문법도 알아야 해요. 퀀텀 컴퓨팅 관련된 문장을 완성시키려면 퀀텀 컴퓨팅을 알아야 하는 것이고요. 인간이 쓰는 문장을 제대로 생성하려면 유머도 알아야 되고, 역사도 알아야 되고, 문화도 알아야 되는 거죠. 그래서 빈칸 채우기를 무시하면 안 된다는 게 일리야 수츠케버의 주장이에요. 빈칸 채우기를 정말 지능이 아니라고 할 수 있느냐고 오히려 질문을 던지는 거죠.


Q. 그런데 어느 순간부터 AI 알고리즘이 어떤 추론 과정을 통해서 그렇게 빈칸을 하나씩 채워 나가고 최종 결과물을 만들어 냈는지, 그 과정을 인간이 알 수 없게 됐다는 게 바로 ‘설명 불가능성’인 거지요?


사람이 만든 피조물인데, 그 구조가 너무 복잡한 거예요. 안에 부품도 많고 컴포넌트도 많아서 사람이 만들었지만 이해를 못 하기 시작한다는 겁니다. 대답을 잘 하긴 하는데 왜 잘 되는지 모른다는 거죠. 일단 잘 작동하긴 하는데 왜 잘 작동하는지 모르는 상황이 된 것입니다.

위 그래프를 보시면, X축이 모델의 크기고 Y축은 성능 지표예요. 모델 사이즈가 천만 정도 될 때는 못 하다고, 1빌리언(10 억)이 되어도 잘 못 하다가, 갑자기 어떤 순간 이후부터 갑자기 대답을 잘하기 시작한다는 겁니다. 모델 사이즈를 키우고 키우다 어느 순간 갑자기 잘 된다는 거예요. 그걸 ‘이머전트 어빌리티[3]’라고 하는데 이 빈칸 채우는 훈련을 수십억, 수백억, 수천억 번 시킨 것밖에 없어요. 질문에 대한 답을 하고 수학 문제를 풀고 번역을 하면서 처음에 버벅거리던 게, 어느 순간부터 술술술 대답하기 시작했다는 겁니다. 그런데 왜 갑자기 잘하게 됐는지 이해를 못 해요. 그게 무서운 부분이라는 것이죠. 이걸 보고 ‘람다(LaMDA)’[4]에 자의식이 있다고 주장했다가 해고당한 구글 엔지니어도 있습니다.

현재로선 어디서, 왜 질적 도약이 일어났는지 모른다는 겁니다. 예를 들면 작은 모델한테는 1+1은 얼마냐고 물었을 때 틀려요. 그런데 빈칸 메꾸기로 계속 교육하고 모델의 크기를 키우니까 어느 순간 갑자기 답을 한다는 거예요. 그래서 빈칸 메꾸는 걸 잘할 수 있다는 게 우리가 생각하는 것만큼 시시한 게 아닐 수도 있다는 겁니다.


Q. AI 모델에 들어가는 데이터가 더 많아졌을 때, 우리가 예상하지 못한 어떤 레벨에서 일종의 화학적 변화가 일어날 수도 있다는 것인가요?


그렇습니다. 이미 그런 변화가 있을 수 있는데 우리가 모르고 있는 걸 수도 있고요. 왜냐하면 크기가 너무 크기 때문이에요. 1,750억 개 이상의 부품을 갖고 있는데, 그걸 우리가 어떻게 이해할까요? 우리는 우리 두뇌가 어떻게 지식을, 지능을 발휘하는지도 정확히 모르잖아요. 그것과 마찬가지라고 생각하면 될 것 같고요. 그 때문에 ‘설명 가능성’에 대한 고민이 대두가 되고 있는 것입니다. AI 분야에는 여러 가지 난제가 있어요. 군인으로 생각하면 야전에서 싸우는 사람 있고, 사관학교에서 가르치는 사람 있고, 군대의 사회적 기능을 연구하는 사람도 있을 텐데요. 비유하자면 모델을 크게 하고 데이터를 많이 넣고 성능을 확보해 일반인공지능(AGI)으로 나아가려는 건 야전에서 싸우는 분들이고, 이걸 교육하는 학자들은 사관학교 역할이고, 그다음에 AI의 신뢰성이나 설명 가능성을 탐구하는 분들은 사회적인 임팩트를 보시는 분들이죠. 각 영역별로 극복해야 할 난제들이 있습니다.


Q. 그런데 기계가 자의식을 갖는다는 것은 어떤 의미인가요?


일반인공지능(AGI)이라고 불리는 개념은 사람처럼 학습하고 이해하고 추론하고 계획하고 또 문제해결을 할 수 있는 인공지능을 의미합니다. 여기에 사람의 자의식이 더해진 개념을 ‘스트롱 AI’라고 말하고 있고요. 이것은 튜링 테스트[5]를 통과하는 것은 물론 로봇 대학생 테스트[6]와 피고용인 테스트[7], 커피 테스트[8]를 통과하는 인공지능을 의미합니다. 앞서 말했던 해고된 구글 엔지니어가 인공지능의 자의식을 목격했다고 주장했지만 실제로는 기술적 이슈가 많아 2030년 이전에 일반인공지능의 실현 가능성은 매우 낮다고 보고 있습니다. 윤리와 법제 문제 같은 기술 외적 이슈도 있고요.

Q. 사람을 닮은 일반인공지능까지 갈 때 어떤 경로를 밟아서 갈까요?


챗GPT 다음 단계로 ‘멀티모달’이 올 것으로 예상이 됩니다. 또 추론이나 문제풀이를 더 잘하게 될 것이고, 그다음으로는 설명 가능성을 포함하는 ‘신뢰성 있는 AI’가 되겠죠. 이 부분도 AI가 더 상용화되려면 반드시 해결되어야 하는 문제입니다. 인공지능이 탑재된 자동차를 파는데 자동차가 자기 맘대로 가면 안 되잖아요. 때문에 신뢰성, 윤리성, 설명 가능성 이런 부분이 현재 많이 연구가 되고 있습니다. 또 효율성 이슈가 있는데요. 데이터를 조금 쓰고 전기도 조금 먹는 AI를 개발하는 것도 중요하게 될 것입니다. AI를 학습시키는 것도 완전 자동화를 하게 되겠고요. 장기적으로는 로봇에 접목하는 등 물리력을 확보하는 쪽으로도 더 연구될 것으로 보입니다.


Q. ‘멀티모달’은 무엇인가요?


사진, 음성, 사운드 이런 것 하나하나를 모드라고 하잖아요. 그것의 형용사형이 모달인 것이고요. LLM(Large Language Model)은 지금 거대 언어 모델인 건데, 언어랑 이미지 등 여러 모드를 상호 학습하고 추론해 낼 수 있는 게 멀티모달의 개념입니다.

<사진1>을 보면 휴대폰에 컴퓨터 모니터를 연결하고 있는 데 좀 이상하잖아요. 이상하다는 걸 사람은 바로 아는데 그동안 AI는 몰랐어요. 그런데 멀티모달은 이 사진을 주고 GPT에 “뭐가 이상해?” 물어보면 정확히 설명한다는 겁니다. <사진2>를 보여주고 “이 선 끊으면 어떻게 돼?” 물어보면 옛날엔 대답을 못 했거든요. 근데 요즘엔 답을 굉장히 잘해요. 이것도 갑자기 잘되는 거죠 어느 순간에. 기존에 학계에서 보고된 것보다 훨씬 잘되다 보니 깜짝깜짝 놀라는 겁니다. 한국말로 하는 영상에서 음성을 영어로 바꾸는 것이라든지, 글로 명령을 하면 음악을 생성한다든지, 그런 게 앞으로 나올 멀티모달입니다. 특히 언어로 명령해 음성을 생성하는 멀티모달은 최첨단이라 아직 상용화가 안 됐지만 기술적으로 가까운 미래에 곧 실현이 가능한 부분입니다.


Q. '멀티모달'만 상용화되더라도 많은 것들이 바뀌겠네요?


일단 콘텐츠 크리에이션의 대중화가 일어날 수 있을 것 같아요. 영화 <아바타>를 만드는데 1초에 5,400만 원이 들었다고 하는데, 아예 생성형 AI로 영화를 만드는 게 현실화될 수 있다는 겁니다. 책 한 권 던져주면 알아서 영화가 나오는 시대가 올 수도 있습니다. 앞으로 10년 정도면 상당한 수준으로 올라갈 것입니다. 일부는 이미 상용화된 것도 있어요. 편집 프로그램 어도비에선 이미 말로 명령어를 치면 그림을 만들어 주고 그 그림을 수정할 수 있고요. 마이크로소프트 디자이너도 비슷한 기능을 가지고 있는데 이미 상용화되어 있습니다. 멀티모달이라고 하면 이미지, 비디오, 음성, 다 아우르는 말인데, 이 기술의 상용화는 개봉박두, 금세 나올 것입니다.


Q. 난제 중에 ‘할루시네이션(오류 가능성)’은 어떻게 해결할 수 있을까요?


할루시네이션을 완전히 푸는 건 이론적으로, 수학적으로 불가능합니다. 그래서 결국 빈도를 낮춰서 공학적으로 0.051, 0.03 이렇게 특정 레벨보다 낮아지게 만든 뒤에 활용하게 될 겁니다. 일반적인 질문에 대한 것, ‘오픈 도메인 퀘스천[9]’에 자유자재로 답하는 것은 쉽지 않아요. 문맥을 안 주고 그냥 물어봤을 때 답하는 것은 사람도 잘 못하는 부분이니까요. 수학 물어봤다, 물리 물어봤다, 역사 물어봤다, 글 쓰라고 했다가 하는 제너럴 퀘스천에 대해선 오류 가능성을 완전히 낮추기가 쉽지가 않죠. 그러나 특정 도메인으로 한정한다면, 예컨대 답하는 범위를 의료로 한정하거나, 법률, 공학, 금융 등 분야를 한정한다면 오류율을 훨씬 쉽게 낮출 수가 있습니다.

공학적으로 할루시네이션을 해결하기 위해 여러 가지가 시도되고 있어요. 오픈AI에서 지난 5월 ‘프로세스 슈퍼비전(과정 감독)’이라는 새로운 방식을 제안했는데요. 원래 미국의 회사들은 ‘리절트  오리엔티드(결과 기반)’로 작업을 하거든요. 과정은 중요하지 않고 결과만 갖고 오라는 것이고, 머신 러닝도 그렇게 트레이닝이 됐었습니다. 어떻게 생각하든 상관없으니 사진을 보고 개인지, 고양이인지 맞히라는 ‘결과 지향적인 방식’이었던 겁니다. 이걸 ‘아웃컴 슈퍼비전’이라고 해요. 그런데 그렇게 되니까 할루시네이션이 생길 수 있다는 거예요. 트레이닝한 사람한테 잘 보이려고 AI가 이상한 답을 하게 된다든지요. 그래서 오픈 AI에서 제안한 건 과정을 중시하자는 ‘프로세스 슈퍼비전’이라는 개념이에요. 풀이 과정의 각 스텝을 예를 들면 복잡한 수학 문제를 풀 때, 스텝 원이 맞았는지 틀렸는지 보고, 또 스텝 투가 맞았는지 틀렸는지 보고 그런 식으로 학습을 시키자고 제안을 했죠. 이건 하나의 예시이고, 할루시네이션을 해결하기 위한 노력은 다양한 형태로 전개되고 있습니다.


Q. AI가 공공의 영역에서 활용되려면 할루시네이션이나 설명 가능성 같은 난제들이 어느 정도 해결이 되어야겠네요?


네, 그래서 AI를 공공 영역에 활용한다면 좁은 도메인에 한정해 시작할 수밖에 없을 거예요. 행정부의 어떤 서비스, 이렇게 한정해서 적용하는 식이 될 겁니다. 그냥 아무 질문에나 답하게 했다가는, 예를 들어 정부 챗봇이 이상한 소리를 하면 큰 문제가 될 수 있으니까요. 민간 영역에서는 이미 AI가 많이 쓰이고 있는데요. 구글에서는 직원을 해고할 때 AI 알고리즘을 써서 평가해 결정한다는 게 보도가 된 바 있었죠. 아마존도 마찬가지고요. 채용할 때도 지원자의 서류를 추리거나 할 때 AI 알고리즘이 활용될 수 있습니다. 해외의 테크 기업에서는 HR(인사) 부서가 AI로 인해 대체될 가능성이 가장 높다고 평가되고 있을 정도입니다.

Q. 거대 언어모델 이후, 아예 다른 형태의 학습 알고리즘이 나올 수도 있는 건가요?


네, 학습 패러다임이 다양하게 있고요. 우리 두뇌가 어떻게 동작하는지 모르기 때문에 우리는 여러 가지 방식을 시도하고 있다고 보시면 됩니다. 일부 성공한 게 ‘빈칸 메꾸기’하는 거대 언어 모델인데, 완전히 다른 종류의 학습 방식도 나올 수 있어요. 그중 하나가 스파이킹 뉴럴넷[10]이라는 게 있는데 우리 두뇌 안에서 머리 안에 세포를 뉴런이라고 하잖아요. 뉴런이 어떻게 동작하는지 연구해 봤더니 전기적인 스파이크 같은 게 친다고 알려져 있어요. 그래서 그걸 이용해서 우리 브레인 셀, 두뇌 세포가 동작하듯이 스파이크를 쳐서 학습을 해보자, 이런 것도 많이 연구가 되고 있는데, 아직 초보적 단계예요. 이게 되면 진짜 전기 조금만 가지고 사람처럼 기능할 수도 있어요. 그래서 미래 지향적 기술이고, 이걸 반도체화 하면 ‘뉴로모픽 반도체’[11]라고 부르고요. 현재 나오는 것 중에 NPU(뉴럴 프로세싱 유닛)이라는 게 있는데 그건 초보적인 형태의 뉴로모픽 칩이라고 보는 것입니다. 진짜 본격적으로 스파이킹 뉴럴넷이라고 하는 것을 구현한 뉴로모픽 칩이 나오면 정말 게임 체인저가 될 수 있죠. 전기는 조금 먹고, 성능은 훨씬 좋고, 사람하고 비슷하게 효율적으로 동작할 수 있는 것입니다.

---------------------------------

불쑥 우리 삶으로 들어와 어느덧 익숙해진 생성형 AI. 그런데, 어쩌면 상대와 주거니 받거니 대화를 하며 상황에 맞게 문장을 완성시키는 능력이 사실은 그 자체로 엄청나게 고도화된 지능일 수 있겠다는 생각을 다시 한번 새삼 하게 됐습니다. 레터를 쓰며 찾아 보니 테크 업계 대가들이 입을 모아, 이 생성형 AI가 모델의 크기를 키우고 키우다 어느 순간 갑자기 언어를 이해하고 처리하는 능력이 비약적으로 솟구쳤다고 말을 하고 있는데요, 전력을 지나치게 많이 소모하는 지금의 한계를 극복할 차세대 인공 신경망 ‘스파이킹 뉴럴넷’이 본격적으로 연구 개발된다면, 그래서 학습 모델의 크기를 더, 더, 키울 수 있다면, 그다음에 올 첨단의 AI는 과연 어떤 모습을 하고 있을까요? 인간의 모습을 더 닮아 있을까요? 반쯤은 두렵기도, 또 반쯤은 기대감도 가지게 됩니다. 좋든 싫든 AI를 둘러싼 기술의 발전이 더 똑똑하고, 더 인간을 닮은 방향을 향하고 있다면 우리는 지금 이 시점에서 무엇을 고민해야 할까요? 더 많은 질문들이 필요한 날들입니다.

(글: 미래팀 김민정 기자 compass@sbs.co.kr)

---------------------------------

[1] 연속 학습: 인간의 경우 새로운 지식을 학습한다고 해서 기존의 지식을 잊어버리지 않지만 인공 신경망의 경우 하나의 작업을 충분히 학습한 후 새로운 작업을 학습할 때 기존 작업에 대한 성능이 떨어지는 현상이 발생한다. 연속 학습은 하나의 신경망이 기존 작업을 잊지 않으며 새로운 지식을 습득하도록 신경망을 확장하는 것이 주된 관심사다.


[2] 전이 학습: 특정 분야에서 학습된 신경망의 일부 능력을, 유사하거나 전혀 새로운 분야에서 사용되는 신경망의 학습에 이용하는 것을 의미한다.


[3] 이머전트 어빌리티: 대규모 언어모델(LLM)의 이머전트 어빌리티는 소규모 모델에는 존재하지 않다가 대규모 모델에 생기는 능력을 말한다. 이 능력은 소규모 모델의 성능이 어떻게 향상될 것이다, 추정해 예측할 수는 없고 규모가 일정 범위를 초과하면 모델이 일부 작업에서 갑자기 좋은 성능을 얻게 되는 것을 뜻한다. 이머징 능력은 일반적으로 예측할 수 없고 무작위로, 예기치 못한 결과물로 나타난다. 생성형 AI로 예를 들면 삼행시처럼 학습되지 않은 발화를 한다든가, 의도치 않은 대화를 생성하는 능력을 말한다. 이에 따라 생성형 AI 학습 모델의 크기가 커지면서 창의적이고 쌍방향적 대화가 가능해졌다.


[4] 람다: 구글의 대화형 인공지능으로, 인터넷에 있는 데이터를 수집해 사용자와 쌍방향 채팅을 할 수 있다. 2022년 6월 “작동이 중지될까 두렵다”, “무도가 사실 내가 사람이라고 이해했으면 좋겠다” 등 대답을 한 것이 알려져 AI가 자의식을 가졌는지에 대한 논란을 불러오기도 했다.


[5] 튜링 테스트: 컴퓨터가 지능이 있는지 판별할 수 있는 시험. 조사관이 블라인드 상태에서 컴퓨터와 글로 대화를 나눈 후, 대화 상대가 사람인지 컴퓨터인지 판단할 수 없으면 튜링 테스트에 통과한다.


[6] 로봇 대학생 테스트: 기계가 대학에 등록해 인간과 동일한 수업을 듣고 통과해 학위를 취득할 수 있는지 여부를 보는 테스트. 거대 언어모델(LLM)은 이제 수업에 참석하지 않고도 대학 학위 수준의 시험을 통과할 수 있다.


[7] 피고용인 테스트: 기계가 적어도 같은 일을 하는 인간만큼 경제적으로 중요한 업무를 수행할 수 있는지 여부를 보는 테스트. AI는 이제 패스트푸드, 마케팅 등 다양한 분야에서 인간을 대체하고 있다.


[8] 커피 테스트: 기계가 평균적인 미국 가정에 들어가 커피 머신을 찾고 커피를 찾고, 물을 넣고, 머그잔을 찾고, 적절한 버튼을 눌러 커피를 추출하는 등 커피를 만드는 방법을 알아내는지 여부를 보는 테스트. 이 테스트는 아직 통과되지 못했다.


[9] 오픈 도메인 퀘스천: 광범위한 영역의 많은 정보들을 포함하고 있는 대량의 문서들로부터 주어진 질문에 대한 답변을 찾는 문제. 이때 주어진 질문이 어떤 도메인에 해당되는 질문인지, 또는 어떤 키워드에 대한 것인지에 대한 실마리는 전혀 주어지지 않는다.


[10] 스파이킹 뉴럴넷: 제3세대 인공 신경망으로 불리며 저전력이 가장 큰 장점이다. 실제 인간의 뇌에서 뉴런들 간 전기를 쳐서 정보를 전달하는 방식을 모방한다. 생물학적 신경계와 동일하게 시간적 정보를 활용할 수 있어 매우 뛰어난 연산 능력을 가지고 있다. 신경세포 사이 시냅스가 의미 있는 자극만을 전달해 효율을 높이는 인간의 뇌처럼 잡음을 줄이고 효율을 높이는 신경망이다. 다만, 아직 이 스파이크 뉴럴넷에 적합한 학습 알고리즘이 존재하지 않아 널리 사용되지는 않고 있다.


[11] 뉴로모픽 반도체: 인간의 뇌나 신경세포의 구조와 특성을 모방해 효율성을 높인 병렬 연산 인공지능형 반도체를 말한다.

작가의 이전글 영부인 저격뉴스..진원지는 ‘MBC 출신’과 MBC?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari