brunch

GPT 톤과 감정을 담아 말하는 오디오 모델 발표

by SPECAL

영상을 먼저 보고 시작하시죠 오늘 OPEN AI에서 공개한 서비스입니다.


오픈 AI는 이번 방송에서 3가지 오디오 모델을 발표했습니다.

TTS(Text To speech) 모델 1개

- gpt-4o-mini-tts

STT(speech To Text) 모델 2개

- gpt-4o-transcribe

- gpt-4o-mini-transcribe

를 발표했죠

원래는 whisper라는 녀석이 있었는데요

이번에 음석 ai시스템을 발표하면서 아래와 같은 구조로 만들었다고 발표했습니다.

1캡처.PNG

챗봇에서 멈추는 게 아니라 상담사를 만들어주겠다는 거죠 그런데 왜 굳이 텍스트로 바꾸는 비효율적인 과정을 거치냐고요?


voice to voice는 나쁜 게 아닙니다 다만 여기서 굳이 텍스트 모델을 공개한 이유는 기존 gpt와의 결합으로 llm성능을 100% 끌어낼 수 있다는 게 가장 흥미로운 부분입니다. 안 그래도 gpt 기반 앱들이 많이 있는데 여기에 간단하게 보이스모드를 추가하고 버튼추가만 해주면 말만 하면 구현해 주는 기능을 추가할 수 있다는 겁니다.



2캡처.PNG

실제로 오류율이 매우 낮은 걸 확인할 수 있는데요 놀랍네요

7캡처.PNG

여기에 실제로 한국어 성능도 상당히 괜찮은 수준입니다 실제로 사용해 보면 tts느낌이 남아있긴 생각보다 놀라워요 그래서 화나는걸 얼마나 잘 구현했을지 궁금해서 한번 화를 내보라 해봤습니다.


"야 이 세키야!!!"를 말하게 했는데 상황마다 다르게 알아서 말하다니 아직은 약간 어색하지만 성우를 따라잡기까지 얼마 안 남은 느낌입니다.


1차적인 활용방안도 공개되었는데요

4캡처.PNG

온라인 사이트 구매상담을 말로 할 수있는네요 쉽게 말해 인당 상담사 한 명을 붙여준느낌이죠


이제 온라인시장의 대격변이 아주 기다려집니다.


[레퍼런스]


https://openai.com/index/introducing-our-next-generation-audio-models/


keyword
매거진의 이전글[AI이슈] 글 AI에 그림기술을 쓴다고? '블록디퓨전