brunch

You can make anything
by writing

C.S.Lewis

by 김학용 May 15. 2024

GPT-4o, omni와 multi의 차이

인터페이스 방식의 다음은 무엇일까?

5월 14일(현지 시각으로 5월 13일) OpenAI는 GPT-4o를 발표했습니다. GPT-4o에 대해서는 너무 많은 이야기들이 쏟아지고 있어서 이에 대해서는 더 이상 언급하지는 않으려 합니다. 대신 '4o'의 'o'에 주목해 보고자 합니다.

OpenAI는 GPT-4o의 'o'가 'onmi'를 나타낸다고 말합니다. 사전적인 의미로 '옴니(omni)'는 '모든 것'이나 '전체'를 의미합니다. 혹은 더 나아가서 모든 것을 다 할 수 있다는 '전능'을 의미합니다. 즉, GPT-4o는 이제 모든 것을 다 할 수 있는 인공지능, 즉 사실상의 일반인공지능(AGI, artificial general intelligence)를 의미한다고도 이해할 수 있을 것 같습니다.

실제로 OpenAI는 GPT-4o에게 수학문제를 풀게도 시키고 실시간 통번역을 시키기도 하고 목소리 톤이나 감정을 달리하며 말하게 시키기도 합니다. 이 정도만 봐도 모든 것을 다 할 수 있는 것처럼 보입니다.

하지만, OpenAI가 말하는 '옴니'는 AGI가 아니라 '모든 인터페이스 방식'을 의미한다고 보는 것이 더 바람직할 것 같습니다. 인공지능을 사용하는 방법은 텍스트, 음성, 이미지(영상) 정도가 대표적일 테고, 여기에 다양한 센서값이나 전원의 상태 같은 상태 정보가 추가될 수 있을 것입니다. 이런 것들을 함께 이용하는 것을 '멀티모달(multi-modal)'이라고 하죠. 그런데, 그 멀티를 뛰어넘었다는 것입니다.

실제로 GPT-4만 하더라도 텍스트, 음성, 이미지(영상)을 모두 인식해서 처리할 수 있었고, GPT-4o도 마찬가지입니다. 결국 인터페이스 방식 측면에서는 GPT-4나 GPT-4o나 달라진 것이 없어 보이는데, 왜 굳이 멀티가 아닌 옴니라고 표현했을까요? (뭔가 새로운 인터페이스 방식이 더 추가됐을 수도 있지만, 이와 관련해서는 제가 세심하게 보지 않아서 잘 모르겠습니다.)

이는 GPT-4o에 대한 OpenAI의 설명에서 확인이 되는데요, 기존의 멀티모달은 텍스트, 음성, 이미지를 개별적으로 처리하는 방식이었습니다. 이들은 순차적으로 처리가 될 수도 있고 동시에 처리될 수도 있었는데요, 서로 다른 AI 엔진이 각각의 인터페이스 방식을 처리한 후 이를 통합하는 식으로 동작해야 했기에 처리 속도가 느린 편이었습니다.

하지만, GPT-4o는 하나의 엔진이 동시에 여러 가지 유형의 인터페이스 데이터를 처리하게 됩니다. 즉, 테스트와 함께 소리와 이미지를 함께 인식할 수 있다는 것입니다. 따라서, 기존 서비스에 비해 더 빠르고 종합적으로 이해하고 대응하는 것이 가능하게 된다고 합니다.

응답 속도만 하더라도 0.2~0.3초 수준으로 마치 사람과 대화하는 성능을 얻을 수 있게 되는 거죠. 그런 측면에서 마치 인간가 대화하는 듯한 자연스러움을 느낄 수 있게 해주게 되는 것입니다. 참고로 음성모드로 사용할 때 GPT-3.5는 2.8초, GPT-4는 5.4초의 지연시간이 있었습니다.

자, 그렇다면 이제 OpenAI에 남은 일은 무엇이 있을까요? 자연스러운 방식으로 사람과 실시간 대화가 가능해졌고, 사람들이 원하는 것에 대한 답변을 해줄 수 있게는 되었지만, 한 가지 빠진 부분이 있습니다. 바로 사람이 원하는 일을 해주는 것입니다. 이는 사람의 말을 정확히 이해하는 것과는 또 다른 문제입니다.

사람이 원하는 일을 수행하는 방식은 크게 두 가지 측면에서 구현할 수 있을 것으로 보이는 데요, 하나는 온라인에서 일을 처리해주는 것이고, 다른 하나는 오프라인에서 일을 처리해 주는 것입니다. 물론, 이 두가지가 결합된 형태로도 나타날 수 있을 것입니다.

예를 들면, 이번 주말 한화의 야구 경기 표를 예매해줘!라는 명령에 대해 한화의 야구표를 예매할 수 있는 사이트를 찾아 표를 예매해 주는 것입니다. 이를 해결하기 위해서는 해결해야 할 일들이 많이 있겠죠. 어디에서 표를 파는지도 알아야 하고 사용자가 어떤 자리를 선호하는지도 알아야 할 것입니다.

그리고 이런 것도 가능할 것입니다. 거실 화분에 있는 난초가 시들지 않게 주기적으로 물 좀 줘! 라고 명령하면, 서비스 로봇을 통해 난초를 인식한 후 적절한 주기로 물을 주게 시킬 수도 있을 것입니다. 이를 위해서는 동작을 할 수 있는 로봇을 제어할 수 있어야 하겠죠.

이 과정에서 공통적으로 필요한 부분인 바로 '액션 모델(Action Model)'을 개발하는 것입니다. 액션 모델은 Rabbit.tech가 R1을 소개하면서 잘 알려졌는데요, 사용자의 명령을 수행하기 위해 해야 할 일들을 순차적으로 작은 액션들로 분리해 놓은 것을 말합니다.

야구표 예매를 예로 든다면, 한화의 야구표를 예매할 수 있는 사이트를 찾고, 사용자 계정을 이용해서 로그인을 한 후, 주말 표를 검색하고, 사용자가 선호하는 위치의 자리를 지정한 후, 결제를 하고, 그 결과를 사용자에게 알려줄 수 있는 조치를 취하는 것입니다.

물론, 이런 절차는 더 상세할 수도 있고 단순할 수도 있을 것입니다. 중요한 것은 우리가 하나의 일이라고 생각하는 것을 작은 조각들로 나누고 그 전후 관계를 파악한 후 온라인 혹은 오프라인에서 순차적으로 일을 수행할 수 있도록 하는 것입니다.

오늘 구글 I/O 2024를 보니, 사용자와 인공지능의 인터페이스 방식은 이제 어느 정도 수준에 올라온 것 같습니다. 옴니 방식이라면 더 팬시하겠지만, 사실 이는 크게 중요하지는 않아 보입니다. 더 중요한 것은 이를 기존 서비스에 결합하고 액션 모델까지 적용할 수 있도록 하는 게 아닐까 생각합니다. 이를 통해 기업들이 돈 버는 방법을 바꾸는 것이 가장 중요하리라 생각합니다.

OpenAI의 CEO인 샘 알트만도 자신의 블로그를 통해 GPT-4o를 광고도 달지 않고 일반인들에게 무상으로 제공하겠다고 밝히면서도 OpenAI는 사업체이기 때문에 유료화할 수 있는 것들을 찾아내겠다고 밝히기도 했습니다. 결국 앞으로는 기존 비즈니스와 AI를 어떻게 통합해서 수익을 창출하느냐가 관건이 되리라 생각합니다.

keyword

김학용 IT 분야 크리에이터 소속 와츠매터 직업 CEO

스마트폰 이후의 시대는 앰비언트 혹은 캄테크의 시대라는 내용의 책 <앰비언트>와 스마트 서비스 디자인에 대한 책인 <냉장고를 공짜로 드립니다>의 저자 (IOT 전략연구소 소장)

구독자 381

작가의 이전글 매터 1.3 스팩 발표 생성형 AI, 언제쯤 AI 스피커와 통합될까? 작가의 다음글

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari