brunch

You can make anything
by writing

C.S.Lewis

by 김학용 May 15. 2024

GPT-4o, omni와 multi의 차이

인터페이스 방식의 다음은 무엇일까?

5월 14일(현지 시각으로 5월 13일) OpenAI는 GPT-4o를 발표했습니다. GPT-4o에 대해서는 너무 많은 이야기들이 쏟아지고 있어서 이에 대해서는 더 이상 언급하지는 않으려 합니다. 대신 '4o'의 'o'에 주목해 보고자 합니다. 


OpenAI는 GPT-4o의 'o'가 'onmi'를 나타낸다고 말합니다. 사전적인 의미로 '옴니(omni)'는 '모든 것'이나 '전체'를 의미합니다. 혹은 더 나아가서 모든 것을 다 할 수 있다는 '전능'을 의미합니다. 즉, GPT-4o는 이제 모든 것을 다 할 수 있는 인공지능, 즉 사실상의 일반인공지능(AGI, artificial general intelligence)를 의미한다고도 이해할 수 있을 것 같습니다. 


실제로 OpenAI는 GPT-4o에게 수학문제를 풀게도 시키고 실시간 통번역을 시키기도 하고 목소리 톤이나 감정을 달리하며 말하게 시키기도 합니다. 이 정도만 봐도 모든 것을 다 할 수 있는 것처럼 보입니다. 


하지만, OpenAI가 말하는 '옴니'는 AGI가 아니라 '모든 인터페이스 방식'을 의미한다고 보는 것이 더 바람직할 것 같습니다. 인공지능을 사용하는 방법은 텍스트, 음성, 이미지(영상) 정도가 대표적일 테고, 여기에 다양한 센서값이나 전원의 상태 같은 상태 정보가 추가될 수 있을 것입니다. 이런 것들을 함께 이용하는 것을 '멀티모달(multi-modal)'이라고 하죠. 그런데, 그 멀티를 뛰어넘었다는 것입니다. 


실제로 GPT-4만 하더라도 텍스트, 음성, 이미지(영상)을 모두 인식해서 처리할 수 있었고, GPT-4o도 마찬가지입니다. 결국 인터페이스 방식 측면에서는 GPT-4나 GPT-4o나 달라진 것이 없어 보이는데, 왜 굳이 멀티가 아닌 옴니라고 표현했을까요? (뭔가 새로운 인터페이스 방식이 더 추가됐을 수도 있지만, 이와 관련해서는 제가 세심하게 보지 않아서 잘 모르겠습니다.)


이는 GPT-4o에 대한 OpenAI의 설명에서 확인이 되는데요, 기존의 멀티모달은 텍스트, 음성, 이미지를 개별적으로 처리하는 방식이었습니다. 이들은 순차적으로 처리가 될 수도 있고 동시에 처리될 수도 있었는데요, 서로 다른 AI 엔진이 각각의 인터페이스 방식을 처리한 후 이를 통합하는 식으로 동작해야 했기에 처리 속도가 느린 편이었습니다. 


하지만, GPT-4o는 하나의 엔진이 동시에 여러 가지 유형의 인터페이스 데이터를 처리하게 됩니다. 즉, 테스트와 함께 소리와 이미지를 함께 인식할 수 있다는 것입니다. 따라서, 기존 서비스에 비해 더 빠르고 종합적으로 이해하고 대응하는 것이 가능하게 된다고 합니다. 


응답 속도만 하더라도 0.2~0.3초 수준으로 마치 사람과 대화하는 성능을 얻을 수 있게 되는 거죠. 그런 측면에서 마치 인간가 대화하는 듯한 자연스러움을 느낄 수 있게 해주게 되는 것입니다. 참고로 음성모드로 사용할 때 GPT-3.5는 2.8초, GPT-4는 5.4초의 지연시간이 있었습니다. 


자, 그렇다면 이제 OpenAI에 남은 일은 무엇이 있을까요? 자연스러운 방식으로 사람과 실시간 대화가 가능해졌고, 사람들이 원하는 것에 대한 답변을 해줄 수 있게는 되었지만, 한 가지 빠진 부분이 있습니다. 바로 사람이 원하는 일을 해주는 것입니다. 이는 사람의 말을 정확히 이해하는 것과는 또 다른 문제입니다. 


사람이 원하는 일을 수행하는 방식은 크게 두 가지 측면에서 구현할 수 있을 것으로 보이는 데요, 하나는 온라인에서 일을 처리해주는 것이고, 다른 하나는 오프라인에서 일을 처리해 주는 것입니다. 물론, 이 두가지가 결합된 형태로도 나타날 수 있을 것입니다. 


예를 들면, 이번 주말 한화의 야구 경기 표를 예매해줘!라는 명령에 대해 한화의 야구표를 예매할 수 있는 사이트를 찾아 표를 예매해 주는 것입니다. 이를 해결하기 위해서는 해결해야 할 일들이 많이 있겠죠. 어디에서 표를 파는지도 알아야 하고 사용자가 어떤 자리를 선호하는지도 알아야 할 것입니다. 


그리고 이런 것도 가능할 것입니다. 거실 화분에 있는 난초가 시들지 않게 주기적으로 물 좀 줘! 라고 명령하면, 서비스 로봇을 통해 난초를 인식한 후 적절한 주기로 물을 주게 시킬 수도 있을 것입니다. 이를 위해서는 동작을 할 수 있는 로봇을 제어할 수 있어야 하겠죠. 


이 과정에서 공통적으로 필요한 부분인 바로 '액션 모델(Action Model)'을 개발하는 것입니다. 액션 모델은 Rabbit.tech가 R1을 소개하면서 잘 알려졌는데요, 사용자의 명령을 수행하기 위해 해야 할 일들을 순차적으로 작은 액션들로 분리해 놓은 것을 말합니다. 


야구표 예매를 예로 든다면, 한화의 야구표를 예매할 수 있는 사이트를 찾고, 사용자 계정을 이용해서 로그인을 한 후, 주말 표를 검색하고, 사용자가 선호하는 위치의 자리를 지정한 후, 결제를 하고, 그 결과를 사용자에게 알려줄 수 있는 조치를 취하는 것입니다. 


물론, 이런 절차는 더 상세할 수도 있고 단순할 수도 있을 것입니다. 중요한 것은 우리가 하나의 일이라고 생각하는 것을 작은 조각들로 나누고 그 전후 관계를 파악한 후 온라인 혹은 오프라인에서 순차적으로 일을 수행할 수 있도록 하는 것입니다. 


오늘 구글 I/O 2024를 보니, 사용자와 인공지능의 인터페이스 방식은 이제 어느 정도 수준에 올라온 것 같습니다. 옴니 방식이라면 더 팬시하겠지만, 사실 이는 크게 중요하지는 않아 보입니다. 더 중요한 것은 이를 기존 서비스에 결합하고 액션 모델까지 적용할 수 있도록 하는 게 아닐까 생각합니다. 이를 통해 기업들이 돈 버는 방법을 바꾸는 것이 가장 중요하리라 생각합니다. 


OpenAI의 CEO인 샘 알트만도 자신의 블로그를 통해 GPT-4o를 광고도 달지 않고 일반인들에게 무상으로 제공하겠다고 밝히면서도 OpenAI는 사업체이기 때문에 유료화할 수 있는 것들을 찾아내겠다고 밝히기도 했습니다. 결국 앞으로는 기존 비즈니스와 AI를 어떻게 통합해서 수익을 창출하느냐가 관건이 되리라 생각합니다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari