brunch

You can make anything
by writing

C.S.Lewis

by 크립토노트 May 18. 2024

인간에 가까워지는 GPTo

OpenAI의 새로운 모델 공개, 어떤 모습을 하고 있을까?

안녕하세요, 크립토노트입니다.


13일 OpenAI는 GPT의 최신 대형언어모델인 GPT-4o를 발표했습니다.

GPT-4o의 o는 옴니(Omni)이며, "모든"을 뜻하는 라틴어 접두사라고 합니다. 단어 뜻 그대로, 이번에 새롭게 나온 GPT-4o는 텍스트 중심에서 벗어나 사진이나 영상과 음성과 같은 여러 종류의 데이터를 복합적으로 처리할 수 있는 멀티 모달로 완전히 거듭났습니다.


OpenAI가 GPT-4o를 발표했습니다.



최근 많은 LLM이 등장하면서, AI 시장은 그야말로 "춘추전국시대"가 되어가고 있죠. 그 안에서 가장 독보적인 모습을 보이고 있던 OpenAI가 경쟁자들의 격차를 벌리면서, 완전히 앞서 나가는 모양새이기도 합니다. 오늘은, GPT-4o가 어떤 기능을 갖고 있고, 어떤 변화를 가져올지에 대해서 조금 이야기를 해보려고 합니다.


LLM의 과거와 현재

어떤 변화가 있을까?

가장 눈에 띄는 변화는 바로 '통합 모델'이라는 점입니다. 기존의 GPT-4의 경우 text-based로 텍스트로 입력을 진행하면, 텍스트를 통해서 답변을 처리하는 구조였습니다. 하지만, GPT-4o는 음성 - 음성, 음성 - 이미지 등 기존의 파편화되어 있던 답변 처리 구조를 완벽히 뒤바꾸었다는 점이 가장 큰 특징입니다. 물론, 속도와 효율성의 증가 역시 큰 특징으로 볼 수 있죠.


음성으로 질문을 하게 되면, 질문자와 다양한 방식으로 소통을 진행합니다.


사용자가 불면증에 시달리는 친구를 위해 이야기를 들려달라고 요구하자, GPT-4o는 마치 할머니가 아이들에게 들려주듯이 "Once upon a time..."로 이야기를 시작합니다. 사용자가 더 감정적으로 이야기를 해달라고 하자, 톤을 완전히 바꾸어서 사용자에게 이야기하죠. 또, "내가 조금 긴장이 되는데 진정하려면 어떻게 해야 할까"라고 묻자 "숨을 깊이 들이마셔봐"라고 답변을 하기도 합니다.



단순히 "AI 답게" 답변하는 것이 아니라, 톤과 어조를 조절해서 답변을 하거나, 노래를 부르는 등의 대응이 가능하죠. 유튜브 링크를 첨부할 테니, 직접 보는 것도 좋을 것 같네요!

https://www.youtube.com/watch?v=DQacCB9tDaw (12:12의 어조를 주목하세요)


오픈 AI는 GPT-4o에 음성으로 질문하면 반응 속도가 평균 320ms에 달한다고 합니다. 즉, 거의 인간과 같은 즉각적인 수준의 문답이 오고 갈 수 있다는 것이죠.



영화 'Her'가 연상되는 것은 왜...?


이러한 모습은 영화 'Her'를 연상하게 합니다. 호아킨 피닉스가 열연한 이 영화는 인공지능 비서와 사랑에 빠지는 인간의 모습을 그려내죠. 주인공은 영화 안에서, 계속해서 자기가 사랑하고 애정을 쏟는 '실체 없는 존재'에 대한 물음을 계속해서 던집니다. 그게 정말 사랑이라고 볼 수 있을지, 우리 모두를 고민에 빠지게 만들죠.


ChatGPT도 그렇고, 최근 구글이 발표한 Gemini 생태계도 그렇고, 많은 것이 변화하고 있습니다. 근래에 느끼는 점 중 하나는, 결국 10년, 20년 전에 가장 대체되지 않을 가능성이 높다고 했던 예술가가 제일 먼저 위기에 놓인 것처럼 세상은 우리가 상상했던 모습과는 사뭇 다른 방향으로 나아가고 있다는 점입니다.


이제는 윤리적인 문제가 도마에 오를 것 같습니다. 영화에서만 고민하던 인공지능과의 사랑이나, 다양한 맥락에서 의논이 오고 갈 것입니다. 정말 "사랑"으로 인정할 수 있는 문제일까요? 기술의 변화와 윤리적 충돌 속에서, 규제의 칼을 꺼내려는 정부도 이해가 가기는 합니다. 이러한 초 AI 시대에는 더 이상 국가나 기관이 권력을 갖고 있는 게 아닌, 어떤 초월적인 기업이 그 전체의 생태계를 구성할 수도 있는 문제이니 말이죠.





브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari