brunch

You can make anything
by writing

C.S.Lewis

by 차근차근 AI May 18. 2024

챗GPT(3): 실시간으로 대화하는 GPT-4o의 원리

챗GPT 무료 버전 vs 유료 버전 차이

안녕하세요. 그동안 챗GPT의 작동 원리에 대해 누구든지 이해할 수 있도록 쉽게 설명하는 책을 쓰느라 업로드가 너무 늦어졌습니다. 원고가 거의 마무리 단계에 접어들었는데 이번주에 엄청난 업데이트가 있었기 때문에 (원고를 대거 업데이트해야 하고) 이 업데이트에 대해 브런치에 글을 쓰기로 마음을 먹었습니다. 혹시 책에 반영되었으면 하는 부분이 있으면 제게 알려주시면 감사하겠습니다.


마침 6, 7화 글에서 챗GPT의 두뇌, GPT 모델의 발전 과정에 대해 GPT-1부터 GPT-4 터보까지 살펴보았기 때문에 바로 이어서 2024년 5월 13일에 공개된 새로운 모델, GPT-4o에 대해 알아보겠습니다. 



인공지능 서비스인 사만다와 사랑에 빠지는 남자에 대한 이야기인 영화 Her(그녀)를 아시나요? GPT-4o 모델의 능력을 보여주는 데모 영상을 보면서 마치 이 영화가 현실화된듯한 느낌을 받았다는 후기가 많습니다. 실시간으로 보고, 듣고, 감정을 이해할 뿐만 아니라 감정을 실어서 말하는 것까지 가능해져서 챗GPT가 아니라 마치 진짜 사람과 대화하는 것 같은 느낌이었습니다. 


유료 사용자뿐만 아니라 무료 사용자에게도 제공될 예정인 GPT-4o 모델의 핵심은 오디오, 비전(이미지, 비디오), 텍스트를 실시간으로 추론해서 인간과 챗GPT의 상호작용이 훨씬 더 자연스러워졌다는 것에 있습니다. GPT-4o에서 o는 omni, 즉 “모든”을 의미하는데, 기존 모델과는 달리 텍스트, 오디오, 이미지, 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성할 수 있다는 것을 강조하기 위한 이름이 아닐까 생각해 봅니다. 이번 업데이트의 주요 내용을 1) 자연스러운 실시간 음성 대화, 2) 실시간으로 카메라가 비추는 화면을 보고 대화, 3) 실시간으로 컴퓨터의 화면을 보고 대화, 4) 무료 사용자를 위한 새로운 기능 추가, 이렇게 네 가지로 요약해 보았는데, 아래에서 하나씩 살펴보겠습니다. 


1. 자연스러운 실시간 음성 대화

- 기존 음성 대화 기능의 문제:

사실 챗GPT가 우리의 말을 듣고 답변을 말하는 음성 대화 기능은 GPT-3.5(무료)와 GPT-4(유료)와 같은 기존 모델에서도 가능했습니다. 그런데 문제는 음성 대화를 할 때 평균적으로 약 3-5초가량의 지연 시간이 존재하고, 대화 중간에 끼어들 수도 없기 때문에 자연스럽게 대화를 나누기에는 부족한 점이 많았다는 것입니다. 그 이유는 다음의 음성 대화 원리를 살펴보면 알 수 있습니다.


기존 모델의 음성 대화 원리: 

기존 모델의 경우, 음성 대화 기능이 다음과 같이 세 가지의 모델로 구성된 파이프라인으로 작동합니다. 

1) 음성 입력을 텍스트로 변환: 오디오를 텍스트로 변환하는 음성 인식 모델인 Whisper 모델을 이용해서 사용자가 말한 음성을 텍스트로 변환해서 챗GPT에 입력해 주는 단계

2) 텍스트 답변 생성: 챗GPT가 1단계의 텍스트 입력을 받아서 GPT-3.5이나 GPT-4와 같은 모델을 통해 텍스트 답변을 생성하는 단계

3) 생성된 답변을 음성으로 출력: 2단계의 텍스트 답변을 TTS (text-to-speech) 모델, 즉 텍스트를 음성으로 변환하는 모델을 이용해 음성으로 합성해서 출력하는 단계 


이 방식을 사용하면, GPT-3.5이나 GPT-4가 답변을 생성하는 두 번째 단계에서 이미 많은 정보가 사라지게 됩니다. 예를 들어, 사람이 어떤 톤으로 말을 하는지, 몇 명의 사람이 얘기를 하는지, 어떤 감정을 담아 얘기하고 있는지, 배경에서 어떤 소음이 들리는지와 같은 정보가 텍스트 변환 과정에서 사라지게 되는 것입니다. 그렇다면 GPT-4o는 어떤 식으로 작동하길래 이러한 정보를 이해할 수 있는 걸까요?


- GPT-4o 모델의 자연스러운 실시간 음성 대화 원리:

텍스트, 비전(이미지, 비디오), 오디오의 모든 입력과 출력이 단일한 멀티모달 모델(텍스트와 이미지처럼 다른 형태(멀티 모드)의 데이터를 함께 다룰 수 있는 모델)에 의해 처리된다는 것이 핵심입니다. 오디오를 형식의 변환 없이 그 자체로 이해하기 때문에, 기존 방식에서 사라지던 정보들, 즉 말하는 톤과 감정, 배경 소음이나 웃음소리와 같은 맥락을 이해할 수 있습니다. 그 결과, 인간의 반응 시간과 유사하게 실시간으로 음성 대화 나누기, 사람과 대화하듯이 중간에 말을 끊고 끼어들기, 사용자의 음성에 내포되어 있는 감정을 이해하고, 적절한 감정과 톤으로 상황에 맞게 자연스럽게 말하는 것이 가능해진 것입니다. 


오픈 AI에서 공개한 데모 영상을 보면 정말 기가 막힙니다. 슬픈 목소리, 기쁜 목소리 등으로 감정을 실어서 말하는 것은 물론이고, 실시간 통역, 자장가나 생일 축하 노래 불러주기, 빨리 말하기, 비꼬듯이 말하기 등 다양한 감정과 톤을 가진 음성으로 너무나도 자연스럽게 대화가 가능합니다


- 기존 모델 대비 GPT-4o의 성능:

영어 텍스트, 추론, 코딩 분야에서는 GPT-4o 이전의 최신 모델이었던 GPT-4 터보 수준의 성능을 보이고, 영어가 아닌 텍스트(50개 이상의 언어 지원), 비전 및 오디오 이해 분야에서는 훨씬 성능이 개선되었다고 보고되어 있습니다. 속도까지 더 빠르다고 하니 안 쓸 이유가 없어 보입니다. 


2. 실시간으로 카메라가 비추는 화면을 보고 대화

기존의 GPT-4 모델에도 사용자가 업로드한 이미지를 “보는”기능이 있었습니다. 그런데 GPT-4o 모델은 업로드한 이미지를 이해하는 것에서 한 발짝 더 나아가서, 실시간으로 보이는 비디오 입력도 이해할 수 있게 되었습니다. 즉, 실시간으로 내 카메라의 화면을 이해해서 마치 영상 통화를 하듯이 대화할 수 있는 것입니다. 


예를 들어, 마치 과외 선생님처럼 수학 문제를 카메라로 보여주고 문제 풀이에 도움을 받거나, 시각 장애인에게 스마트폰 카메라를 통해 실시간으로 주변에 대한 설명을 해 주는 역할을 할 수도 있습니다. 화면에 비치는 사용자가 슬퍼 보이면 이 감정을 감지해서 위로를 해 주고, 기뻐 보이면 같이 즐거워해 주는 것도 가능할 것입니다. 마치 영화 그녀의 인공지능 사만다처럼 말이죠.


3. 실시간으로 컴퓨터의 화면을 보고 대화

기존에는 모바일 앱으로만 음성 기능을 사용할 수 있었는데, 이번에 출시된 데스크톱 앱을 통해서 컴퓨터에서도 음성 대화가 가능해졌고, 또한 비전 기능을 통해서 실시간으로 내 컴퓨터의 화면을 보면서 대화도 가능해질 예정입니다. (다만 현재 맥 OS에서만 출시되어 있고, 윈도우 버전은 올해 말에 출시 예정이라고 합니다.)


예를 들어, 화상 미팅을 한 뒤, 미팅 내용에 대해 요약을 해 달라고 하면, 어떤 사람이 어떤 말을 했는지 잘 구분해서 요약해 줄 수 있습니다. 또는 화면에 켜져 있는 그래프를 분석해서 설명을 해 주거나, 내가 작성하고 있는 코드에 대해서 설명이나 도움을 줄 수도 있습니다.


4. 무료 사용자를 위한 새로운 기능 추가

기존 무료 사용자들은 GPT-3.5 모델로 텍스트 대화만 사용할 수 있었는데, 멀티모달 모델인 GPT-4o가 무료 사용자에게도 제공되면서 다음과 같이 큰 변화를 가져다줄 예정입니다 (출처):

 - GPT-4o를 통해 GPT-4 수준의 지능 경험 (유료 사용자 대비 5배 더 작은 메시지 수 제한)

 - 자연스러운 실시간 음성 대화 

 - 텍스트뿐만 아니라 이미지, 비디오 입력에 대한 대화

 - 인터넷 검색 기능을 활용한 답변 생성 

 - 고급 데이터 분석 기능을 이용한 분석과 차트 생성

 - 파일 업로드 후 요약, 글쓰기, 분석 등 대화

 - 특정 목적에 특화된 맞춤형 GPT(GPTs)와 GPT 스토어 사용 가능


이미지 생성 기능과 직접 맞춤형 GPT를 만들어 공유하는 기능만 제외하면, 기존에는 유료 사용자만 쓸 수 있었던 기능들을 제한적이지만 모두 사용할 수 있게 되는 셈입니다. 유료 사용자에게 먼저 배포된 후 무료 사용자에게로 확대 배포될 예정이라고 하니, 공개가 되면 꼭! 활용해 보시기를 추천합니다. 

챗GPT 무료 버전 vs 유료 버전 차이 (출처: https://chat.openai.com/chat)


유료 사용자의 경우 GPT-4o의 텍스트와 이미지 입력 기능은 이미 챗GPT에 통합되어 있고, 앞으로 몇 주 내로 새로운 음성 기능이 알파 버전(챗GPT에 통합하기 전 실험적으로 먼저 배포하는 것)으로 우선 제공될 예정이라고 합니다. 다만 비디오와 상호작용하는 기능은 일부 신뢰할 수 있는 소규모의 파트너 그룹에게 먼저 몇 주 내로 지원을 시작한다고 하니 좀 더 기다려야 써볼 수 있을 것 같습니다. 


어릴 때 영어 공부 하기가 싫어서 누가 실시간 통역기 좀 만들어 줬으면 좋겠다고 상상의 나래를 펼쳤던 기억이 있습니다. 그런데 진짜로 실시간 통역이 현실이 되었습니다. 또한 머지않은 미래에 GPT-5가 공개될 수도 있다는 소문이 있으니, 정말 어떤 세계가 펼쳐질지 궁금한 세상에 살고 있는 것 같습니다. 저는 쓰고 있던 책 원고를 마무리한 뒤, 다시 찾아오겠습니다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari