brunch

연재 중 생각하는 기계의 원리 - 2편 23화

라이킷 24 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 알바트로스 May 25. 2024

AGI(일반인공지능) 파헤치기 - GPT-4o와 AGI

GPT-4o는 AGI(일반인공지능)일까?

최근 오픈 AI에서 GPT-4o를 발표하면서 영화 그녀(Her)의 사만다가 현실이 되어 나타났다는 평가가 나오고 있습니다. GPT-4o는 음성과 텍스트로 사람처럼 매끄럽고 자연스러운 문장을 구사하는 것은 물론이고, 질문에 대해 거의 사람과 같은 약 232밀리 초(0.23초)라는 짧은 반응시간으로 대화를 이어가기도 합니다.

심지어 감정을 담아 목소리 톤을 바꾸어 가며 농담을 던질 줄도 압니다. 더욱 놀라운 것은 시연 영상 속 GPT-4o가 단순한 이미지 인식을 넘어 마치 사람처럼 주변의 풍경을 정확히 인식하며 시각장애인을 위해 길안내를 하고 택시를 잡아주기까지 한다는 사실입니다.

https://www.youtube.com/watch?v=RI-BxtCx32s

GPT-4o는 음성, 이미지, 텍스트 가릴 것 없이 모든 형태의 데이터의 인풋과 아웃풋이 자유자재로 가능한 멀티모달(Multimodal) 모델의 종착지를 보여주는 듯합니다. GPT-4o는 모델 이름에서부터 이미 '모든 것'을 의미하는 'omni'라는 단어를 담고 있습니다.

이를 두고 일각에서는 이미 AGI(Artificial General Intelligence)가 등장했으며 더 이상 AGI의 실현 가능성에 대해 논할 필요조차 없다고 말하기도 합니다. 반면에 이번 GPT-4o 시연 영상은 진정한 의미의 기술적 진보라기보다는 기존 기술의 짜깁기에 기교를 더한 보여주기식 쇼에 가깝다고 주장하는 사람들도 있습니다. 기존에 존재하는 다양한 인공지능 기술들을 그럴듯한 UI/UX로 구현해 냈을 뿐 본질적으로 새로운 것은 없다는 평가지요. 과연 GPT-4o로 진짜 AGI의 시대가 열린 것일까요? 아니면 AGI의 등장은 아직 시기상조일까요?

1. 지능(Intelligence)의 본질은 패턴화와 예측이다

우선 AGI를 구현해 내기 위해서는 지능의 정의를 명확히 할 필요가 있었습니다. 지난 시간까지 우리는 인공지능과 컴퓨터공학, 그리고 뇌과학과 신경과학의 힘을 빌려 지능의 정체를 파헤쳐왔습니다. 인간 지능의 본질은 패턴 인식과 예측 능력에 있으며, 이는 신피질(neocortex)의 기능과 깊은 관련이 있다는 사실을 배웠지요. 딥러닝 기반 인공지능을 통해 우리는 이러한 패턴 인식과 예측 기능을 기계에 모방해 낼 수 있으며 이는 생각하는 컴퓨터의 구현으로까지 이어질 수 있습니다.

출처 : Clevertap

패턴화와 예측에 근거한 추론능력을 통해 복잡한 경우의 수를 생각해 내고 응용하는 일은 컴퓨터가 인간보다 훨씬 더 잘할 수 있습니다. 지능의 본질이 패턴화와 예측이라면 우리는 더 큰 매개변수(parameter)와 컴퓨팅 리소스를 통해 얼마든지 인간보다 빠르고 똑똑하게 구현해 낼 수 있습니다. 이는 의사, 변호사, 회계사와 같은 전문가들이 오랜 시간 전문 지식과 스킬에 대한 숙련도를 바탕으로 업무를 수행하는 패턴과 매우 유사합니다. 따라서 '인간의 지능을 컴퓨터에 구현해 낼 수 있느냐'에 대한 저의 답은 너무나도 명백하게 Yes입니다.

2. AGI의 세 가지 조건

기계의 지능은 더이상 문제가 되지 않습니다. 진짜 문제는 AGI의 정의가 모호하다는 점에 있습니다. 사실 AGI는 그 정의에 대한 명확한 합의가 존재하지 않는다는 점에서 다루기 매우 까다로운 주제입니다. 과연 무엇이 AGI일까요? AGI의 사전적인 정의는 인간이 할 수 있는 어떠한 지적인 업무도 성공적으로 해낼 수 있는 지능을 가진 기계를 말합니다.

그러나 이러한 피상적이고 모호한 정의는 혼란만 가중시킬 뿐 AGI에 대한 정의를 내리는 데에 아무런 도움이 되지 않습니다. 따라서 제가 생각하는 AGI의 세 가지 조건을 바탕으로 조금 더 엄밀하게 AGI에 대한 정의를 살펴보도록 하겠습니다.

1) 첫 번째 조건 : 멀티모달 AI(Multimodal AI)

출처 : Multimodal Learning

예를 들어 특정 목적에 한정되지 않고 여러 분야에서 활용될 수 있으며 음성, 텍스트, 이미지 등 인풋 아웃풋 형태에 제한 없이 자유자재로 인간과의 인터랙션이 가능한 멀티모달 인공지능의 끝판왕을 AGI라고 정의 내린다면 GPT-4o는 이미 AGI의 모든 조건을 만족합니다. 겉보기에 GPT-4o는 AGI가 갖추어야 할 모든 요소를 갖추었다고 할 수 있지요.

2) 두 번째 조건 : 자율적 판단과 행동

그러나 AGI를 인간의 지시 없이 스스로 판단하고 행동할 수 있는 인공지능이라고 정의하면 이야기가 조금 달라집니다. 생성형 AI가 지능을 가진 존재임에는 분명하지만, 그렇다고 해서 그것이 자율성을 가지고 있음을 뜻하지는 않습니다. 여전히 생성형 AI는 특정 행위를 하기 위해 인간에 의한 '트리거'가 필요하기 때문입니다.

뇌는 진화의 산물이다에서 살펴보았듯이 생성형 AI는 파충류의 뇌와 포유류의 뇌를 가지고 있지 않습니다. 현재로서는 모성애를 느끼고 생물학적 충동을 느끼게 하며 신피질을 지배하는 파충류의 뇌와 포유류의 뇌를 컴퓨터에 구현해야 할 특별한 이유가 없습니다. 아무런 경제적 편익도 명분도 없기 때문이죠. 따라서 아직까지 진정한 의미에서 스스로 목적성과 자유의지를 가지고 행동하는 인공지능은 나오지 않았으며, 앞으로도 꽤나 오랜 시간 나오지 않을 것입니다.

영화 '터미네이터'의 스카이넷

예를 들면 영화 터미네이터의 스카이넷처럼 인류가 지구에 해롭고, 따라서 인류를 멸망시켜야 한다는 식의 생각을 하는 인공지능을 AGI라고 정의해 볼 수도 있습니다. 그러나 현재 진행 중인 인공지능의 연구는 대부분 그러한 것을 구현하는 것과는 거리가 매우 멉니다. 따라서 '챗GPT가 내가 한 말을 기억해 두었다가 나중에 나를 공격할 수도 있다'는 걱정은 접어두셔도 됩니다. 챗GPT는 애초에 당신이 한 말에 대해 생각할 수 없습니다.

3) 세 번째 조건 : 자아와 욕구

한 발 나아가 사람처럼 '자아'를 가지고 인간처럼 진정한 욕구를 가진 존재가 AGI라고 정의 내려볼 수도 있습니다. 신피질과 지능을 가진 인공지능에게 각종 센서를 통해 인풋 되는 여러 형태의 정보는 인간의 시각, 촉각, 청각, 후각 등 감각기관을 통해 들어오는 정보와 비교해 볼 수 있습니다.

출처 : Freepik

컴퓨터는 외부로부터 가해지는 자극을 통해 인간이 그렇듯이 세상을 경험할 수 있을까요? 질문에 답하기 위해서는 과연 인간의 '자아'라는 것은 무엇인지, 그리고 '욕구'라는 것은 어떻게 생겨나는 것인지에 대한 탐구가 필요합니다. 이 부분은 아직까지 미지의 영역이자 신비의 영역으로 남겨져 있습니다.

3. 결론

GPT-4o는 현존하는 AI 기술의 집약체로, 진정한 의미의 멀티모달 AI를 구현해 냈다는 점에서 분명 의의가 있습니다. 그러나 이것이 곧 진정한 의미의 AGI의 등장을 의미하는 것은 아닙니다. AGI의 정의에 따라 다르겠지만, 현재로서는 GPT-4o가 AGI로 나아가기 위한 첫 번째 조건인 '멀티모달 AI'의 조건을 겨우 만족했다고 볼 수 있습니다.

인간은 스스로를 닮은 일종의 지적 존재를 창조해 냈다고 생각합니다. 그러나 여기서 멈출지 아니면 더 나아갈지는 선택의 문제라고 생각합니다. 현재로서는 가능성이 희박해 보이지만 어떠한 경제적인 편익과 기대가 생겨난다면 우리 인류는 '자율적 판단이 가능하며 자아를 가진 AGI'에 대한 연구를 시작할 수 있을지 모릅니다. 그러나 그렇게 하기로 마음을 먹는 순간 우리는 수많은 철학적, 윤리적, 종교적 질문들과 마주해야 합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari