brunch

You can make anything
by writing

C.S.Lewis

by delight May 19. 2024

왜 오픈AI GPT-4o에 놀라는가

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번에는 The PyCoach가 미디엄에 올린 글을 정리한 것입니다.

OpenAI가 드디어 GPT-4o를 공개했다! 이 새로운 모델은 오디오, 시각, 텍스트 실시간 멀티모달 기능을 제공하며 이제 상당한 개선이 이뤄졌다. 무료로 사용할 수 있으며, 이는 새로운 사용자를 유치하고 모델 학습을 더욱 확장하는 것을 목표로 하는 GPT 3.5와 유사한 전략을 보여준다.


미아 무라티에 따르면, GPT-4o 모델에서 주목할 만한 특징 중 하나는 이전 버전인 GPT-4에 비해 최대 2배 빨라진 성능이다. 최대 50%의 비용 절감 효과도 있다. 개발자는 이러한 새로운 개선 사항들 혜택을 누리면서 대규모 AI 프로젝트를 계속 배치할 수 있다. GPT-4o가 우리에게 어떤 도움을 줄 수 있는지 살펴보자.


실시간 비전(Vision in real-time)

이미지를 업로드하고 상호 작용하는 기본 기능을 넘어선 새로운 기능이다. 이제 OpenAI를 통해 음성 어시스턴트로 ChatGPT와 상호작용할 수 있으며, 컴퓨터나 스마트폰에서 콘텐츠를 공유할 수도 있다. 응답은 실시간으로 생성되므로 다양한 유형과 복잡성 수준에 걸쳐 폭넓은 분석이 가능하다


ChatGPT는 수학 과외 선생님으로도 변신한다(정말 놀라웠다!). 수학 문제를 풀 뿐만 아니라 해결 방법을 안내해주고, 전체 과정을 보다 교육적이고 설명적인 방식으로 이해하는 데 도움이 되는 명확한 지침과 추천 사항들을 제공한다. 음성 및 시각 기능이 질문을 원활하게 인식하고 해석하는 방식도 놀랍다.


실시간 대화형 음성

OpenAI는 유창성, 어조, 논리적 순서와 같은 기능에 세심하게 집중해 자연스럽게 대화를 이어갈 수 있도록 했다. GPT-4o 프레젠테이션에서 모델은 실제 비서가 하는 것처럼 부드러운 대화를 나누고 친근한 어조로 추천을 제공하기도 했다. 이 모델은 다양한 감정적 스타일으로 음성을 생성할 수 있어 드라마틱한 톤부터 진지하고 격식 있는 톤까지 선택할 수 있다.


ChatGPT에 프롬프트를 제공하는 과정은 생각보다 조금 더 복잡하다. 영어와 스페인어로 된 이중 언어 대화를 원활하게 통역하고, 두 언어를 모두 인식하고 그에 따라 응답을 생성해야 한다. 실시간 대화 기능과 오디오 번역을 결합한 데모에서 설정된 목표를 손쉽게 달성하는 응답의 정확성과 유창함에 깊은 인상을 받았다. 또한 실시간 응답을 제공하는 다른 AI 시스템에서 흔히 볼 수 있는 어색한 멈춤을 피할 수 있다.


데모는 Google만큼 '조작된' 걸까?

여러 데모에서 OpenAI는 동영상이 단순히 영리하게 편집된 것이 아니라 실시간으로 일어나고 있다는 것을 보여주기 위해 노력한다. 


여기에 몇 가지 강조하고 싶은 점이 있다: ChatGPT는 세부적인 요소를 정확하게 식별하고 설명하는 방식이 놀랍다. 사람이 추가되어 외부 환경이 더 복잡해졌음에도 ChatGPT는 이를 성공적으로 인식했다. 이 새로운 모델이 특정 조건에 맞는 노래를 만들어낼 수 있다는 점도 놀랍다.. 쉽게 멜로디를 생성했다.


두 GPT 모델 간 상호 작용은 마치 미래를 엿보는 것 같았다. 명시적으로 언급되지는 않았지만 이것이 OpenAI가 나아가고 있는 방향인 것 같다. GPT-4o가 보여준 기능을 바탕으로 다음 단계는 AI 시스템끼리 상호 작용하는 것이다. 이렇게 되면 한 AI가 다른 AI를 학습하는 등 우리가 상상조차 할 수 없었던 발전이 이루어질 수 있다.


다른 AI 모델을 뛰어넘은 GPT-4o

텍스트 평가

OpenAI가 공유한 이미지에 따르면 GPT-4o는 특히 수학 및 휴먼에벌(HumanEval)과 같은 영역에서 다른 모델보다 뛰어난 성능을 보이며, 이는 사용자들이 더 부드럽고 인간과 같은 대화를 가능하게 해준다는 점에서 높은 평가를 받고 있다. GPT-4o는 영어 외에 20개 이상 언어를 추가로 지원하도록 응답 기능이 확장됐다. 이러한 언어 토큰화 기능의향상은 더 많은 전 세계 사용자에게 다가갈 수 있도록 설계됐다.


오디오 번역 성능

GPT-4o 향상된 기능은 언어가 단순한 의사소통을 넘어 장벽으로 작용하는 경우가 많다는 점을 인식해 더 많은 사람들과 소통할 수 있는 기회를 제공한다. GPT-4o가 Gemini 및 Whisper-v3와 같은 다른 AI 시스템보다 성능이 뛰어나다.


작은 업데이트 그 이상

나에게 이것은 단순히 ChatGPT 업데이트 그 이상이다. AI를 환경과 연결하고 그 잠재력을 극대화하는 데 있어 훨씬 더 큰 영향을 미친다. 이것은 내가 OpenAI에서 기대했던 것이다. 처음부터 가시적이고 진정성 있는 행동을 통해 사용자에게 초점을 맞춘 제품을 지속적으로 제공하는 것이다. 여기서 멀티모달 역할이 매우 중요하며, 오픈AI는 이를 잘 알고 있었기 때문에 다양한 실제 상황에서 보다 정확한 응답을 제공하기 위해 멀티모달리티를 개선하기 위해 노력했다. 이제 이러한 요구 사항을 일부 충족하는 '인위적'인 느낌이 덜한 제품이 탄생했다. GPT-4o는 GPT-5를 향한 첫 번째 단계 중 하나로, 사용자들이 새로운 맥락에서 이 AI를 배치하도록 장려하려는 OpenAI의 이니셔티브를 보여준다.


작가의 이전글 zkEVM에서 zkVM으로 영지식증명 기술 서사의 진화
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari