이미지와 비디오까지 이해하고 생성하는 AI, 챗GPT
멀티모달 AI(multimodal AI)는 텍스트뿐 아니라 음성, 이미지 등까지 모두 이해하고 추론하는 AI를 의미한다.
올해 초 공개 예정인 GPT-4가 멀티모달이다 아니다 예측이 많았는데, 샘 알트만은 GPT-4는 GPT-4가 "text only"가 될 것이라며 이런 논란을 일축했다. 하지만 바로 오늘 3월 9일 열린 "AI in Focus - Digital Kickoff"에서 GPT-4는 멀티모달이 될 것이라는 마이크로소프트 독일 CTO Andreas Braun의 공식 언급이 있었다.
We will present GPT-4 next week. We will have multimodal models that will offer completely different possibilities.
For example, videos.
— Andreas Braun.
GPT-4가 멀티모달이라는 것은 모델이 텍스트와 이미지를 모두 해석함을 물론 텍스트, 이미지, 심지어 동영상까지 생성할 수 있다는 것을 의미한다. 이전 버전은 (공식적으로) 텍스트만 생성할 수 있었다.
또한 멀티모달 언어 모델이 적용될 경우 데이터의 입력과 출력이 다른 언어로 가능하다. 예를 들어 질문은 한글로 하지만 GPT는 영어로 응답을 생성할 수 있다. 이는 번역과 번역 기능이 적용된 글로벌 서비스에 매우 유용하게 적용할 것이다. (알리바바 같은 중국 홈페이지에서 중국 셀러와 언어 제약 없이 자연스럽게 소통하는 것을 상상해 보자. 지금도 번역기를 통해 다중 언어 소통이 가능하지만 그 경험이 더 seamless 해진다)
멀티모달이 적용된 GPT-4를 기다리며,
챗GPT(ChatGPT)와 생성 AI에 관련된 더 자세한 이야기가 듣고 싶다면 도서 "챗GPT 거대한 전환 - 알에이치코리아(RHK)"을 참고해 주세요.
https://product.kyobobook.co.kr/detail/S000201225687