brunch

You can make anything
by writing

C.S.Lewis

by 코아 May 14. 2024

GPT-4o 출시! 인간처럼 보고, 듣고, 대화

GPT-4o 핵심기능 5가지 소개

2024년 5월 13일 OpenAI에서 텍스트, 오디오, 이미지를 실시간으로 처리할 수 있는 새 멀티 모달 모델(LMM) GPT-4o (o 는 “omni”)를 공개 했습니다. 영화 ‘그녀' 에서 처럼 사람과 실시간으로 감정 교류를 하고, 동시 통역과 문제를 푸는 모습도 보여주어 큰 화제를 모으고 있습니다. 신규 모델은 이전 버전 들의 한계를 넘어서며, 사용자 경험을 한 차원 높인 것이 특징입니다. 데모에서 보여준 기능 중 우리가 꼭 알아야 할 핵심 기능에 대해 소개합니다.


성능 향상과 빠른 속도

ChatGPT-4o은 이전 버전과 비교해 텍스트, 비전, 오디오 분야에서 GPT-4 수준의 성능을 제공하면서도 훨씬 빠른 속도를 자랑합니다. 개발자들은 ChatGPT-4.0 API를 통해 속도는 2배 빠르고, 가격은 50% 저렴하며 GPT-4 Turbo 모델 대비 5배 더 높은 속도 제한으로 애플리케이션을 구축하고 대규모로 배포할 수도 있습니다. 이는 사용자들이 더 빠르게 응답을 받을 수 있고, 더 많은 작업을 처리할 수 있다는 것을 의미합니다.  



감정 인식

대화 배경, 여러 사람의 목소리를 식별하고 톤도 이해하며 셀카를 분석하여 감정 상태도 파악 할 수 있습니다. 사용자가 웃고 있는 사진을 보여주면 행복하고 흥분된 상태라는 것을 인식하기도 합니다. 이전 버전에서는 음성 모드를 사용하기 위해 여러 모델이 함께 작동해야 해서 2,3 초의 지연이 있었으나 ChatGPT-4o에서는 이러한 기능이 통합되어 네이티브로 제공되며 실시간 응답으로 사용자와의 상호작용이 더욱 자연스러워졌습니다. 데모에서 사용자의 요청에 따라 다양한 목소리와 톤으로 이야기를 하거나 노래를 부르는 모습도 볼 수 있었습니다. 기존 유료 사용자에게만 지원했던 음성 기능을 무료 사용자에게도 확대할 예정이라고 밝혔습니다.


실시간 번역

ChatGPT-4o은 영어와 이탈리아어 등 50개 이상의 언어를 지원하며, 실시간 번역 기능을 제공합니다. 이는 다국어 사용자 간의 소통을 원활하게 도와줍니다.  


이미지 처리 및 추론 능력 강화

ChatGPT-4o은 사용자가 스크린샷, 사진, 텍스트와 이미지가 포함된 문서를 업로드하여 대화할 수 있도록 합니다. 코드를 보여주면 이를 분석하여 의미를 이해하고, 틀린 부분에 대한 가이드도 해줍니다. 코딩 문제에 대해 대화하며 도움을 받을 수 있습니다. 차트나 그래프를 업로드 하면 데이터를 분석 할 수도 있습니다. 종이에 적힌 수학 문제를 보여주고 답을 풀어내는 과정도 공개 했는데, 이는 방정식을 이해하며 추론 능력도 강화 된 것을 알 수 있습니다.




안전성 보장

실시간 이미지 인식, 동영상 생성으로 안전성 보장이 매우 중요합니다. OpenAI는 이러한 기술들을 세상에 안전하게 도입할 수 있는 방법을 모색하고 있으며 정부, 미디어, 엔터테인먼트, 모든 산업 분야, 시민사회 등 다양한 이해관계자들과 협력하여 끊임없이 완화조치를 마련하고 있습니다.  


개발자를 위한 API 는 13일 부터 공개 했으나, 정식 출시는 몇 주에 걸처 순차적으로 공개할 예정입니다. 이번 출시는 상호작용과 사용 편의성 측면에서 큰 도약을 이룬 것으로 보이며 사용자 들은 곧 놀라운 경험을 해 볼 수 있을 것입니다.


< GPT-4o 데모 영상 >


참고) Openai GPT-4o

매거진의 이전글 AI 사업! 스터디 커뮤니티에서 플랫폼으로 확장전략
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari