brunch

You can make anything
by writing

C.S.Lewis

by 알바트로스 Apr 06. 2024

GPT-4 해부하기

인공지능은 세상을 경험할 수 있을까?

2023년 출시된 GPT-4.0은 여전히 베일에 싸인 모델입니다. 오픈 AI가 기존의 GPT 시리즈 모델과는 다르게 모델 아키텍처, 사이즈, 훈련 데이터셋의 종류 및 규모, 학습 방법 등에 대한 세부 정보를 더 이상 공개하지 않고 있기 때문입니다.


GPT-4는 텍스트뿐만 아니라 이미지, 음성, 동영상 등 다양한 형태의 데이터 입출력이 가능한 멀티모달 모델이기도 합니다. 언어모델(LM)에 눈과 귀를 달았다는 점에서 생성형 AI가 사람처럼 세상을 보고 듣고 느끼게 될 수 있다는 가능성에 대한 상상력을 자극합니다. 그 밖에도 입출력 토큰수를 기존 약 4000 토큰의 약 8배에 달하는 최대 32000 토큰 (약 50 page 분량)까지 늘려 웬만한 문서작업뿐 아니라 리포트 작업과 소설 한 권 분량 정도까지 작업이 가능하다는 장점이 있습니다.


이미지로 입출력이 가능한 GPT-4

그러나 개인적으로 GPT-4의 가장 놀라운 점은 이전 시리즈 모델에 비해 남다른 '추론 능력'을 가지고 있다는 점이라고 생각합니다. 이러한 생성형 AI의 추론능력은 매개변수(parameter)의 증가와도 무관하지 않습니다. GPT-4.0의 매개변수 규모는 정확히 공개되지 않았지만 약 1조 7천6백억 개로 추산되고 있는데, 이는 GPT-3.5의 약 10배 수준입니다.


구체적인 원인은 밝혀지지 않았지만 생성형 AI 모델의 매개변수가 천문학적인 수로 늘어나고 조 단위가 넘어가면서 모르는 사실에 근거하여 새로운 사실을 추측하는 '추론 능력'이 생겨나고 있습니다. 진짜로 AI가 똑똑해지고 있다고도 할 수 있지요.


GPT-3.5 해부하기에서 인공지능을 더욱 사람처럼 만들기 위한 기술인 인간 피드백에 의한 강화학습(RLHF, Reinforcement Learning from Human Feedback)에 대해 배웠습니다. 세상을 경험하지 못하던 GPT-3.5에게 세상에 대한 문맥(context)을 제공하고 인간과 유사한 답변을 하도록 유도하기 위한 훈련 방법이었습니다.


GPT-4에도 RLHF가 적용되고는 있지만 성능 향상의 핵심은 아닙니다. 개인적으로 저는 GPT-4를 보면서 인공지능이 정말로 스스로 세상을 경험하고 생각할 수 있다는 터무니없는 주장만은 아니지 않을까?라는 생각을 하게 되었습니다. 생성형 AI가 인간 고유의 영역이라고 여겨졌던 '창발력'을 가지기 시작했기 때문입니다. 이번 시간에는 GPT-4 Technical Report를 리뷰하면서 인간 지능의 본질과 인공지능의 잠재력에 대해 생각해 보는 시간을 가지도록 하겠습니다.



1. GPT-4.0와 인간의 지능


지능이란 무엇일까요? 인간의 지능에는 논리력, 이해력, 인과 관계 파악 능력, 계획력, 창의력, 문제 해결 능력 등 정말 다양한 요소가 있습니다. 우리는 단순히 누군가가 박학 다식하다고 해서 그 사람을 똑똑하다고 하지 않습니다. 누군가를 똑똑하다고 느끼는 포인트는 대부분 남들이 생각해내지 못하는 기발한 생각을 해내는 순간일 것입니다. 창발능력 혹은 창의력이라는 것은 인간의 지적 활동에 의한 결과물입니다.


GPT-4.0을 사용해 보면 GPT-3.5에 비해서 확실히 똑똑하다고 느낍니다. 왜 그럴까요? 이전 시리즈와는 다르게 GPT-4.0은 놀랍게도 어느 정도 창발능력을 가지고 있는 것처럼 보이기 때문입니다. 오픈 AI 측은 GPT-4.0이 각종 시험에서 “인간 수준의 능력을 보여줬다”라고 주장했습니다. 미국 모의 변호사 시험과 미국의 수학능력시험 격인 SAT에서 상위 10%에 해당하는 성적을 거둔 것입니다.


출처 : GPT-4 Technical Report


구체적으로 살펴봅시다. 위에서 보이는 그래프는 여러 시험에 대한 성적 그래프인데, 하단의 파란색 그래프가 GPT-3.5의 점수이고 상단의 초록색 그래프가 GPT-4의 성적입니다. GPT-4가 확실히 GPT-3.5보다 높은 성적을 보여주고 있는 것을 알 수 있습니다. 그보다 상단의 진한 초록색은 GPT-4의 vision이 포함된 버전인데 no vision보다 높은 점수를 획득했습니다. 사람과 마찬가지로 GPT-4 역시 텍스트만 가지고 학습했을 때보다는 이미지를 활용해 학습했을 때 더욱 높은 성적을 보입니다.


연구진은 인간 피드백에 의한 강화 학습(RLHF fine-tuning) 이전의 base GPT-4 모델만으로도 비슷한 성능을 얻었다는 사실을 강조합니다. 따라서 OpenAI는 GPT-4가 시험에서 좋은 성적을 거둘 수 있었던 것은 RLHF보다는 더욱 거대해진 매개변수에 의한 사전학습(pre-training) 단계에서 생겨난 추론 능력 덕분이라고 예상하고 있습니다.


GPT-3.5의 답변(출처 : devocean)
GPT-4의 답변(출처 : devocean)


2. GPT-4의 한계점


분명 GPT-4는 챗GPT에 비해 환각현상이 많이 줄어들었다고 합니다. 그러나 GPT-4에도 여전히 잘못된 정보를 제공하거나 터무니없는 말을 늘어놓는 환각현상(hallucination)은 존재합니다. 강화학습은 환각현상을 잡는데 효과가 있는 것처럼 보입니다. TruthfulQA와 같은 공개 benchmark 테스트에서는 ‘옳은 문장’과 ‘그럴듯하지만 틀린 문장’을 구분하는데, RLHF 이전의 GPT-4 base 모델은 챗GPT와 큰 성능 차이가 없었지만 인간 피드백에 의한 강화학습 RLHF 이후에는 많이 개선되었기 때문이죠.


할루시네이션 현상



3. GPT-4의 의의


GPT-4가 가지는 의의는 아직 미약하기는 하지만 생성형 AI가 단순히 인간의 말을 앵무새처럼 따라 하는 것을 넘어 일정 수준의 '추론능력'을 가지고 인간 고유의 영역이라고 여겨졌던 '창발력'을 가지기 시작했다는 점입니다. 또한 단순 텍스트를 넘어 이미지 등 다양한 소스로 정보를 받아들이는 멀티모달 방식을 적용하였을 때 더욱 성능이 개선된다는 점도 확실히 보여주었지요.


Computing Machinery And Intelligence

2년 후, 5년 후, 10년 후 셀 수 없을 정도로 많은 매개변수를 가진 멀티모달 생성형 AI는 과연 어떤 모습일까요? 과연 그때에도 우리는 생성형 AI가 단순히 우리말을 따라 하는 확률론적 앵무새에 불과하다고 주장할 수 있을까요? 앨런 튜링(Alan Turing)이 그의 논문 'computing machinery and intelligence'에서 말했던 것처럼 이론적으로는 기계가 사람이 할 수 있는 거의 모든 일을 할 수 있고, 지능을 가지는 것이 전혀 불가능하지 않을지도 모른다는 생각은 한 인간으로서 세상을 바라보는 관점을 바꾸어 주고 겸손하게 만들어 줍니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari