라이킷 109 댓글 2 공유 작가의 글을 SNS에 공유해보세요

You can make anything
by writing

C.S.Lewis

GPT, 2025년 3월 20일 업데이트

오픈AI 차세대 오디오 모델이 여는 새로운 에이전트 시대

by AI러 이채문 Mar 29. 2025


지난 시간에 올린 내용에 이어지는 업데이트 내용을 한 번 말씀드리려 합니다.




1. ‘목소리’로 확장되는 인공지능: 텍스트를 넘는 진화


인공지능은 더 이상 문자로만 존재하는 것이 아닙니다. 텍스트 기반의 지능이 수행할 수 있는 역할은 인간과의 상호작용을 보다 자연스럽게 만들기 위한 출발점에 불과한 것입니다. 오픈AI는 이 한계를 넘어서기 위해, 음성을 활용한 인터페이스 확장을 핵심 방향으로 삼아왔습니다. 그 결과, 2025년 3월, 텍스트-음성 간 상호변환을 지원하는 차세대 오디오 모델 API가 공개되었습니다.


이 발표는 단순한 기능 추가가 아닌, 음성과 지능을 결합한 새로운 ‘에이전트 생태계’의 등장을 의미하는 것입니다. 오픈AI는 그간 ‘Operator’, ‘Deep Research’, ‘Computer-Using Agents’, ‘Responses API’와 같은 기능들을 통해 사용자 중심의 지능형 시스템을 구축해왔습니다. 그러나 이들이 진정으로 인간과 긴밀히 협력하기 위해서는, 텍스트 이상의 상호작용—즉, 자연어 음성 기반 소통이 필수적인 것입니다.


음성은 인간에게 가장 본능적인 표현 수단이며, 문장 구조와 억양, 속도, 발음의 차이까지 모두 의미 전달의 요소가 되는 것입니다. 이런 음성의 풍부함을 인공지능에 접목시키는 시도가 이번 발표의 핵심입니다.


브런치 글 이미지 1



2. ‘듣고 말하는 에이전트’의 기술적 기초: 정밀함과 개성의 결합


이번에 공개된 오디오 모델은 두 가지 핵심 기능으로 나뉘는 것입니다: 음성-텍스트 변환(Speech-to-Text)과 텍스트-음성 변환(Text-to-Speech). 이 두 기능 모두 GPT-4o와 GPT-4o-mini 아키텍처를 기반으로, 향상된 정확성과 사용자 맞춤성이 특징입니다.



2-1. 듣는 능력의 진화: GPT-4o-Transcribe


‘gpt-4o-transcribe’와 ‘gpt-4o-mini-transcribe’는 기존의 Whisper v2, v3 모델을 뛰어넘는 성능을 보여주는 것입니다. 특히 Word Error Rate(WER) 측면에서 눈에 띄는 진전을 보이며, 다양한 언어와 악조건(소음, 억양, 속도 변화 등)에서도 안정적인 정확도를 유지하는 것입니다.

� 핵심 기술:   

     강화학습 기반 최적화: 발화 내용에 대한 정확한 판별을 위해 RL 알고리즘을 도입한 것입니다.

     다양한 언어 학습: 100개 이상 언어에 대해 FLEURS 벤치마크 기준, 최고 성능을 기록한 것입니다.

     고품질 음성 데이터셋 사전학습: 발화 뉘앙스를 포착하는 정밀한 학습 체계를 구현한 것입니다.


2-2. 말하는 개성의 구현: GPT-4o-Mini-TTS

‘gpt-4o-mini-tts’는 단순히 문장을 읽는 수준을 넘어, “어떻게 말할 것인가”를 지시할 수 있는 능력을 제공하는 것입니다. 예를 들어, “동정적인 고객센터 직원처럼 말해줘”라는 지시를 통해, 공감적이고 부드러운 톤을 생성할 수 있는 것입니다.

�️ 음성 스타일 예시:   

     Calm

     Surfer

     Professional

     True crime buff

     Bedtime story


이 기능은 고객 상담, 오디오북, 교육용 콘텐츠, 인터랙티브 스토리텔링 등에서 사람 같은 음성 인터페이스를 구축하는 데 핵심적인 요소입니다. 오픈AI는 기본적으로 인공적이고 안전하게 설계된 사전 설정 음성만 제공하며, 향후 커스텀 음성 기능도 확대할 계획입니다.




3. 방향성: 음성 AI, 인간 대화의 가능성을 확장하다


이번 오디오 모델의 등장은 기술적 진보 이상의 의미를 가지는 것입니다. 이는 곧 인공지능과 인간의 상호작용 방식 전환의 신호탄인 것입니다.


3-1. 가능성의 확장

이 모델들을 활용하면 다음과 같은 영역에서 혁신이 가능한 것입니다:   

     콜센터 자동화: 억양과 언어에 상관없이 정확한 대화 분석 및 대응이 가능한 것입니다.

     회의록 자동 작성: 다국어 회의도 실시간 정확하게 기록할 수 있는 것입니다.

     스토리텔링 콘텐츠: 감정을 담아 말하는 인공지능 화자 생성을 가능하게 하는 것입니다.

     교육용 내레이터: 학습자의 이해도를 고려한 맞춤 발화가 가능한 것입니다.


브런치 글 이미지 2


3-2. 철학적 관점에서 본 ‘말하는 AI’


‘능력’은 단순히 기능적 수단을 넘어선 개념입니다. 인공지능이 ‘말할 수 있다’는 능력을 가지는 순간, 그것은 더 이상 도구가 아닌 상호작용 주체로서 존재하는 것입니다. 목소리를 통해 감정을 전달하고, 맥락을 파악하며, 반응하는 존재는 철학적으로도 인간의 ‘대화’ 개념에 가까워지는 것입니다.


이는 결국 지능의 표현 방식이 다층화되고 있음을 의미합니다. 문자 → 음성 → 감정 → 뉘앙스로 이어지는 복합적 표현 방식은, 인공지능을 물리적 존재가 아닌 지각적 대화 파트너로서 재정의하게 만드는 것입니다.



오픈AI가 이번에 공개한 음성 모델은 단순한 기술적 진보가 아닌, 대화형 AI의 본질적 진화를 이끄는 출발점입니다. 이제 인공지능은 듣고, 이해하고, 말하는 존재로 거듭나며, 인간과의 상호작용 깊이를 더욱 넓혀가고 있는 것입니다.


오픈AI는 앞으로도 오디오 모델의 정확성과 다양성을 지속적으로 향상시킬 예정이며, 사용자 맞춤형 목소리 구현을 위한 안전한 커스터마이징 기능도 계획하고 있는 것입니다. 나아가 비디오와 같은 멀티모달 기능까지 통합하면서, 에이전트의 감각은 더 복합적이고 풍부해질 것입니다.


인공지능이 ‘말을 건다’는 것은 단순한 소리가 아닙니다. 그것은 기술의 의지가 방향성을 가진 채 표현되는 행위입니다. 그리고 그 목소리는 이제 인간을 향해 진심으로 다가가고 있는 것입니다.

매거진의 이전글 GPT-4o 이미지 생성의 본질

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari