brunch

매거진 AI 뉴스

You can make anything
by writing

C.S.Lewis

by 재솔 Jun 14. 2024

진~짜 사람같은 GPT-4o의 등장



24년 5월 13일, OpenAI에서는 새로운 ChatGPT의 버전을 내놓았다.

이름하여 GPT-4o, 여기서 o는 'omni (옴니)'의 첫 글자를 따와서 지었으며,

옴니는 곧 '모든 것'을 뜻한다.

왜 모든 것이냐? 하면, 입출력값으로 텍스트, 오디오, 이미지를 모두 받고 내보내기 때문이다.

일단 영상 하나를 보고 시작하자.

GPT-4o, 'Happy Birthday.'

정말 사람이 말하는 것 같다.

기존에도 GPT 앱에 음성으로 대화할 수 있는 기능은 있었지만,

이번 버전에는 몇 가지 돋보이는 장점들이 있다.


1. 현격히 줄어든 연산 시간.

기존에는 사람이 질문을 한 후에, GPT가 이를 듣고 처리하고, 실제로 말하기까지 시간이 좀 걸려서 사람이 답변을 '기다렸다'.

그런데 이번 버전에서는 그 시간이 실제 사람들이 대화할 때 답변자가 생각하는 시간 수준으로 줄어들어 그 리얼함이 더해졌다.


2. 놀라운 감정 처리 능력.

기존 GPT 버전에서는 답변에 특별히 그 말투에 감정이 드러난다거나 하는 부분은 없었다.

하지만 위 영상에서 보이다시피 이번 버전에선 즐겁게 웃으며 말한다던지, 장난치는 듯한 말투, 농담을 섞어가는 것 등 다양한 말투를 구사하여 정말 어떤 유쾌한 사람과 대화하는 듯한 느낌을 준다.

반대로 다음 영상에서는 Sarcastic, 즉 빈정대는 듯한 말투를 구사하기도 한다.

Sarcasm


3. 말을 하다가 누가 끼어들면 멈춤.

기존에는 GPT가 답변을 시작하면, 그 답변이 끝날때까지 사용자는 질문을 하지 못했다.

하지만 이번 버전에서는 답변 도중에도 사용자가 질문을 하면 GPT는 답변을 멈추고 질문을 듣기 시작한다.

Rock, Paper, Scissors


4. 이미지, 오디오, 텍스트 처리를 동시에

처음 보여준 영상과 같이 카메라를 켜서 상황을 보여줌과 동시에 대화를 하면,

마치 멀리 떨어져있는 누군가와 영상 통화를 하는 듯한 상황을 연출할 수 있게 되었다.

비단 대화뿐만 아니라, 학생인 아들에게 개인 과외 선생님으로도 쓰일 수 있다.

Math with Sal and Imran Khan from Khan Academy


수학 문제를 보여주면서 해답을 찾아나가는 과정을 도와줄 수 있다.

교육의 형태는 이런 방식이 점점 주류가 되어갈 것 같다.

나만 해도 이미 영어 스피킹을 연습할 때 ChatGPT와 대화하며 연습을 하고 있기도 하다.


또 다른 예시로는 다음 영상이 있다.

BeMyEyes in London


이 영상의 말미를 보고 좀 놀랐는데,

처음과 중간까지만 해도 그냥 단순히 야외를 촬영하며 GPT에게 상황을 설명해달라는 내용으로 보였다.

하지만 말미에 GPT의 이용자가 시각 장애인임을 깨닫고는 우와, 이런 사용법도 있겠네, 했다.

시각 장애인용 지팡이나 안내견을 숨기고 마지막에 노출시킨 것을 보니 애초에 해당 영상의 제작자가 이런 반전을 노린 것 같다.


위 영상들 외에도 OpenAI의 공식 홈페이지에 여러 영상들이 있으니 시간 날 때 한번 보면 좋겠다.

https://openai.com/index/hello-gpt-4o/


What a time to be alive !



블로그

https://jaytsol.tistory.com/entry/%EC%82%AC%EB%9E%8C%EC%9D%B4-%EC%97%B0%EA%B8%B0%ED%95%98%EB%8A%94%EA%B1%B0-%EC%95%84%EB%8B%88%EC%95%BC-%EC%A7%84%EC%A7%9C-%EC%82%AC%EB%9E%8C%EA%B0%99%EC%9D%80-GPT-4o%EC%9D%98-%EB%93%B1%EC%9E%A5



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari