GPT 톤과 감정을 담아 말하는 오디오 모델 발표

by SPECAL

Mar 21. 2025

영상을 먼저 보고 시작하시죠 오늘 OPEN AI에서 공개한 서비스입니다.

오픈 AI는 이번 방송에서 3가지 오디오 모델을 발표했습니다.

TTS(Text To speech) 모델 1개

- gpt-4o-mini-tts

STT(speech To Text) 모델 2개

- gpt-4o-transcribe

- gpt-4o-mini-transcribe

를 발표했죠

OpenAI.fm

An interactive demo for developers to try the new text-to-speech model in the OpenAI API

https://www.openai.fm/

원래는 whisper라는 녀석이 있었는데요

이번에 음석 ai시스템을 발표하면서 아래와 같은 구조로 만들었다고 발표했습니다.

챗봇에서 멈추는 게 아니라 상담사를 만들어주겠다는 거죠 그런데 왜 굳이 텍스트로 바꾸는 비효율적인 과정을 거치냐고요?

voice to voice는 나쁜 게 아닙니다 다만 여기서 굳이 텍스트 모델을 공개한 이유는 기존 gpt와의 결합으로 llm성능을 100% 끌어낼 수 있다는 게 가장 흥미로운 부분입니다. 안 그래도 gpt 기반 앱들이 많이 있는데 여기에 간단하게 보이스모드를 추가하고 버튼추가만 해주면 말만 하면 구현해 주는 기능을 추가할 수 있다는 겁니다.