brunch

You can make anything
by writing

C.S.Lewis

by 최재철 May 16. 2024

GPT-4o 소개 및 한국어 성능분석

hello GPT-4o

Gpt-4o 출시 이미지 (출처 : https://openai.com/index/hello-gpt-4o/)


GPT-4o("옴니"를 의미하는 "o")는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계 도약입니다. 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지의 모든 조합을 생성합니다. 오디오 입력에 대해서 반응속도가 232밀리초 안에 응답할 수 있으며, 평균 320밀리초로 인간의 응답 시간과 비슷합니다. 영어 및 Code Text 의 경우 GPT-4 Turbo 성능과 일치하며, 영어가 아닌 언어의 텍스트에 대한 상당한 개선이 이루어지며, API에서는 훨씬 빠르고 가격은 50% 저렴합니다. GPT-4o는 특히 기존 모델에 비해 시각 및 청각 이해도가 더 뛰어납니다.  (출처 openAI 뉴스 페이지에서)


GPT 의 새로운 모델이 출시되었습니다. (2024.05.13) 


이 글에서는 새로 출시된 GPT-4o 의 특징을 알아보고, 제가 만든 한국어 데이터 세트를 사용하여 GPT-4o, GPT 4, Google의 Gemini 모델의 각각 분류 능력을 측정한 결과를 공유합니다.

다음 중 한국어 이해에 가장 강한 모델은 무엇일까요?


OpenAI 라이브 데모에서 가져온 이미지(출처:https://www.youtube.com/watch?v=DQacCB9tDaw)


GPT-4o의 새로운 점은 무엇일까요?

가장 중요한 것은 기존 GPT4 에는 텍스트 + 이미지 까지 되었다면, 

이제는  + 오디오 및 비디오까지 원활하게 이해하고 처리하도록 설계된 Omni 모델 입니다.

OpenAI는 또한 GPT-4o가 50개 이상의 언어에 대한 향상된 품질과 속도를 포함한다고 발표하였고, 

더 저렴한 가격으로 보다 빠른 서비스가 가능하다고 약속했습니다.

특이한 점은 한국어의 경우 토큰의 수가 1.7배 감소한 것으로 발표되어 있습니다. (45개에서 27개로)

적은 토큰으로도 이해할 수 있게 만들어져 있는 거 같아서, 기대가 되는 부분입니다. 토큰의 수가 줄어들었다는 것은 그만큼 속도와 비용적인 메리트가 있는 것입니다.  

또한 Plus 사용자(유료 가입자)는 무료 사용자에 비해 최대 5배 메시지를 보낼 수 있다고 합니다. 

gpt-4o 모습

내 평가 데이터 세트 

다양한 LLM에서 분류 성능을 측정하는 데 사용하도록 주제 데이터 세트를 만들었습니다.

데이터 세트는 25개의 주제 로 분류된 100개의 문장 으로 구성되어 있으며 , 전체 데이터세트를 수동으로 생성하였습니다. 즉, 주제 예측에 대해서 다양한 언어 모델을 사용해 보겠습니다. 


실적 결과 

다음 모델을 평가하겠습니다. 

GPT-4o 

GPT-4 

Gemini 


각 모델에 100문장을 입력했을 때 , 제가 생각했던 주제와 너무 동떨어진 답변을 했을 경우, 오분류라고 간주해서 진행했습니다. * 저의 주관적인 판단하에 평가했습니다. 

( GPT-4o : 11개 , GPT-4  : 7개 , Gemini : 8개 ) 

주제 데이터 평가 결과


주제 데이터 평가표

그래프에서 알 수 있듯이 GPT-4o 가 한국어로 된 저의 평가셋에서는 다른 모델 중 가장 오류가 많았습니다. 

GPT-4, Gemini 는 오답율이 한개 차이라 성능이 근소하다고 볼 수 있겠습니다. 

특이한 점은 주제를 간략하게 정의하는 것은 Gemini 가 뛰어났습니다. (* 질문 Prompt 동일함.)

예를 들어, 

원문 :  야생동물 요리를 준비하는 기술을 배우세요

에 대해서, 각 모델의 주제결과는 


GPT-4o >>>   야생동물 요리를 준비하는 기술 

GPT-4   >>>   야생동물 요리 기술 배우기

Gemini >>>   야생 동물 요리



마치며 

제가 만든 한국어 데이터 세트를 사용한 이 분석은 언어 모델을 평가하는 저만의 지침이 되었습니다.

OpenAI의 최신 제품인 GPT-4o이 가장 좋을 것이라고 기대 많이 했는데, 막상 오류율이 가장 높아서 실망스러웠습니다. 그런데 토큰 수가 적어서 그런지 응답속도랑 한꺼번에 결과를 뽑아내는 것은 확실히 좋아보였습니다. 

또한, 분석하면서 느낀점은 공식적인 평가데이터셋으로 검증하는 것도 좋지만, 저처럼 각 사용자 모두 본인만의 데이터 세트를 사용하여 독립적인 평가를 계속 수행하면 좋을 듯 합니다. 이는 표준화된 벤치마크 테스트 이상으로 모델의 실제 효과에 대한 보다 명확한 그림을 제공하는 데 도움이 되기 때문입니다. (특히 한국어 입장에서요 ^^)

마지막으로 다시한번 말씀드리지만, 위에서 사용된 데이터 세트는 매우 작으며 평가는 저의 지극히 개인적인 기준하에 이루어졌습니다. 



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari