brunch

You can make anything
by writing

C.S.Lewis

by OOJOO May 15. 2024

보고 들으면서 말하는 GPT-4o

AI 시장은 어제의 적이 오늘의 친구로

2023년 11월 오픈AI는 개발자 컨퍼런스(OpenAI Devday)를 열고 GPT-4 Turbo와 함께 GPT Store를 발표하면서 후발주자로 따라오던 구글을 멀찌감치 따돌리며 해자(Moat)를 쌓으며 넘사벽의 기술력을 선보였다. 게다가 새로운 AI 생태계를 만들어가는 AI 리더십을 보여주었고 마이크로소프트와의 각별한 파트너십을 선보였다. 이후 거의 매월 새로운 기능들을 선보이면서 여전히 AI의 맹주로서 시장을 리딩하는 자신감을 보여주었다. 특히 지난 2월의 비디오 생성기인 소라와 대화 내용을 기억하는 메모리 기능, 5월에 아이폰용 ChatGPT App 등은 오픈AI의 꾸준한 기술 리더십을 증명시켰다.

❍ OpenAI의 GPT-4o 공식 소개 페이지

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/?ref=nucleo.jor.br

그런 OpenAI가 5월14일 업데이트 행사를 통해 GPT-4o 모델을 발표했다. o는 Omni라는 뜻으로 모든, 어디에나, 어디에서나의 뜻을 갖는다. 기존의 GPT-4 모델에 o가 붙은 이유는 다음 이미지의 5개의 아이콘이 말해준다.

첫번째 아이콘은 텍스트, 이미지, 오디오 등의 다양한 형식의 데이터를 처리할 수 있는 멀티모달의 뜻이고, 두번째는 이제 이미지를 분석하고 설명하며 생성하는 비전 기능이 강화되었다는 뜻이다. 3번째는 실시간으로 웹에서 정보를 검색하고 가져와 특정 주제에 대해 최신 정보 기반으로 깊이 있는 답변을 할 수 있도록 해준다. 4번째는 펑션콜로 외부의 API를 호출해서 특정 작업을 수행함으로써 더 복잡하고 새로운 기능으로 확장해갈 수 있는 가능성이 넓어졌다는 것을 말한다. 마지막은 데이터를 분석하고 시각화할 수 있는 데이터 해석 지능이 커져 비즈니스 인사이트를 제공할 수 있다는 것을 뜻한다.

이런 종합적인 기능을 제공하는 GPT-4o를 한 마디로 표현하면, "보고 들으면서 말할 수 있는" 복합 지능을 가졌다고 말할 수 있다. 한마디로 영화 Her의 AI 애인이나 아이언맨의 자비스가 완성되고 있음을 말해준다. 실제 데모 동영상에 소개된 ChatGPT와의 대화는 정말 사람과 대화하듯 자연스러운데다 유머러스한 감정까지 지니고 있는 것 같은 착각을 불러 일으킨다. 기존의 AI와 대화는 내용도 딱딱할 뿐 아니라 말로 대화하는 경우 사람이 말하고 이 내용을 AI가 듣고나서 잠시 후(프로세싱을 거친 후) 스피커로 말하는 전반적 과정이 끊기고 단절되어 기계와 대화한다라는 생각이 들었다. 하지만, GPT-4o와의 대화는 사람과 대화하는 수준으로 대화가 물흐르듯이 흘러간다. ChatGPT가 말하고 있는 와중에 바로 사람이 말을 하며 끼어들 수도 있으며, 여러 명의 목소리를 동시에 인식하기도 한다. 실제 GPT-4o의 응답 시간은 평균 0.32초로 사람과 거의 비슷한 수준이다.

https://www.youtube.com/live/DQacCB9tDaw?si=nocnDZXkXbjjszTC

Introducing GPT-4o

OpenAI Spring Update – streamed live on Monday, May 13, 2024. Introducing GPT-4o, updates to ChatGPT, and more.

www.youtube.com

무엇보다 주목할 점은 카메라를 열고 실시간으로 카메라로 비춰진 내용을 보면서 대화를 주고 받을 수 있다는 것이다. 내 얼굴을 비추고 대화를 하면 내 표정을 살피면서 감정을 읽을 수 있고, 수학 문제를 풀고 있는 모습을 비춰주면 답을 찾아가는 과정을 지도해주기도 한다. 내 컴퓨터 화면을 볼 수도 있어서 코딩을 할 때에 잘못된 내용을 지적하고 코칭을 해주는 것도 가능하다. 실제 OpenAI는 애플의 데스크톱용 앱을 개발 중에 있어 이 앱을 실행해두고 맥을 사용하면 화면에 나타난 내용을 인지하면서 대화를 통해 내가 작업하는 사항을 확인해가며 정보를 안내해줄 수 있게 될 것이다.

그리고, 주목해야 할 점은 GPT-4o는 기존의 GPT-4터보보다도 무려 2배 빠르면서도 비용은 1/2로 줄어들어 4배로 좋아졌다. 전 세계 한국어를 포함한 50개 언어를 지원하고 지금 즉시 GPT-4o는 유료 사용자들이 사용해볼 수 있다. 단, 아직 모바일 앱에는 GPT-4o를 선택할 수는 있지만 위의 Omni 기능은 적용되지 않았다.

이번 발표를 통해 우리가 주목해야 할 점은 2014년 아마존의 알렉사라는 AI assistant와 Echo라는 스마트 스피커가 발표된 이후 대화형 인터페이스의 AI 시대가 개막될 것처럼 보였지만 AI와의 대화가 주는 불쾌한 경험으로 사실상 실패한 것이나 다름없던 AI 비서 시장이 다시 부활의 기회가 열리고 있다는 것이다. 게다가 이 GPT-4o는 말하면서 듣는 것을 넘어 보기도 할 수 있기 때문에 우리가 사용하던 PC나 스마트폰의 사용성도 획기적으로 개선될 수 있게 될 것이다. 실제 애플은 OpenAI와 전략적 제휴를 맺고 아이폰에 ChatGPT를 탑재할 것으로 예상되고 있다. Siri를 대체하지는 않겠지만 Siri가 ChatGPT 엔진 기반으로 동작된다면 지금의 초등학생 수준의 Siri는 대학 교수 수준으로 도약하게 될 것이다. 그만큼 아이폰이나 맥의 사용성이 더욱 편리해지고 강력화될 것이다.

또, 기존에 다양한 스타트업들이 외국인과 각자 자국어로 대화를 하면 실시간 통역을 해주는 기존 서비스들을 선보였는데 현실은 이들 서비스를 사용할 때 2% 부족함이 있었다. 그런데 GPT-4o는 그런 2%를 채우고도 +20%나 강점을 보여준다. 그만큼 GPT-4o를 이용한 다양한 서비스들이 선보이기 시작하면 IT 시장의 경쟁구도나 기존 IT 솔루션 회사와 스타트업들의 경쟁력도 크게 위협받게 될 것이다.

5월15일 구글은 매년 열리는 구글 I/O 2024에서 구글의 AI 신기술인 프로젝트 아스트라를 소개했다. 제미나이라는 구글 AI 비서 앱을 스마트폰에서 실행한 채 주변을 비추면 주변을 인식하며 대화를 할 수 있는 것으로 하루 전에 OpenAI가 이미 발표한 GPT-4o와 같은 기능이다. 또한, 텍스트로 고품질의 영상을 만들어주는 비오를 공개했는데 이는 이미 3개월 전에 오픈AI가 발표한 소라와 같다. 골리앗이 된 구글과 다윗의 OpenAI가 같은 AI 시장을 두고 맹주 자리를 다투고 있는데 지금까지는 오픈AI가 한 발 앞서 있다. 또, 그런 AI 경쟁 속에서 작년 11월에 OpenAI와 MS의 동맹이 굳건했던 것처럼 보였는데 지금은 OpenAI의 발표에서 MS는 한 번도 언급되지 않고 되려 애플이 언급되었고 애플의 데스크톱 앱과 아이폰 탑재가 준비되고 있는 실정이다. 그렇게 AI 시장은 치열하게 경쟁 중이며 어제와 오늘이 크게 달라지고 있다.

=============================

▣ 작가의 전통기업의 DT 성과창출에 대한 Udemy 이러닝

➠ https://www.udemy.com/course/dt_jihyunkim

▣ 챗GPT가 가져올 새로운 비즈니스 기회와 개인 이용팁과 기업의 활용 방안에 대한 강연

➠ https://www.udemy.com/course/chatgpt-it-jihyunkim

✔ 프로 일잘러가 되기 위한 시간관리, 스마트워크 팁

➡ https://www.udemy.com/course/timemanagement_jihyunkim

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari