OpenAI DevDay 2024에서 Realtime API 신기능 공개
금번 2024년 OpenAI DevDay는 AI 개발자들에게 혁신적인 도구들을 선보이는 중요한 무대였습니다. 특히, Realtime API의 발표는 AI 기술의 새로운 진화를 예고하는 중요한 사건으로 주목할 만 하죠. 이 API는 앱 개발자들이 실시간 음성 대 음성 상호작용을 구현할 수 있도록 지원하는 강력한 도구로, AI와 사용자의 상호작용 방식을 혁신적으로 변화시킬 것입니다.
Realtime API는 낮은 지연 시간을 통해 자연스러운 음성 대화를 제공하며, 기존 음성기반의 어시스턴트 환경과 차별화된 업그레이드를 보여줍니다. 이를 통해 개발자들은 ChatGPT의 고급 음성 모드와 유사한 경험을 애플리케이션에 쉽게 구현할 수 있죠. 예전에는 이런 멀티모달 기반의 서비스를 일반 기업들이 개발하는 것은 불가능한 일이었다는 점에서, OpenAI가 정말 대단하는 것을 느끼게 되는 부분이죠. (우리나라라면 이건 제휴파트너사에게만 제공하거나, 비용을 엄청 받았을텐데 말입니다.)
이 API는 언어 학습 앱인 Speak와 같은 플랫폼에서 이미 사용되고 있으며, 사용자는 실제 대화와 유사한 몰입형 학습 경험을 얻고 있습니다. 또한, Healthify 같은 헬스케어 앱에서는 실시간으로 AI 코치와 대화하며 맞춤형 피드백을 제공하는데, 필요시 인간 전문가가 개입할 수 있습니다. 즉, 고객들이 AI로 서비스된다면 정말 좋지 않을까 생각했던 기능을 이제 손쉽게 개발하게 된 것입니다.
Realtime API가 대단한 이유는 기존 음성 어시스턴트 기능은 사용자의 음성을 인식하는 Whipser를 거쳐 오디오 데이터를 텍스트로 변환하고, 이것을 텍스트 모델이 추론한 다음, 그것을 다시 TTS(Text to Speech) 모델로 전환하는 3단계를 거치는 것을 단일 프로세스로 통합해 제공하는 겁니다. 이것은 내부적으로 영구적인 웹소켓(WebSocket) 연결을 만들기 때문에, 서버와 클라이언트가 매번 연결이 아닌 한 번의 Handshake 만으로 빠르고 지속적인 통신이 가능하죠. 웹소켓 연결의 개수가 많아질수록 시스템의 과부하는 심해질텐데, 이걸 전부 커버한다고 하는데 엄청난 리소스가 필요할 것이고 이건 OpenAI만 가능한 서비스로 보입니다.
좀 더 부연 설명하자면, WebSockets는 실시간 데이터 전송에 매우 효과적이지만, 시스템 부담과 비용 측면에서 몇 가지 고려사항이 있습니다. WebSocket은 지속적인 연결을 유지하기 때문에, 많은 사용자와의 동시 연결을 처리할 경우 서버의 리소스가 많이 소모될 수 있어요. 특히, WebSocket을 사용하면 연결 상태를 지속적으로 관리해야 하므로 서버 메모리와 CPU 사용량이 늘어날 수 있습니다. 또한 실시간 통신을 위한 네트워크 대역폭도 증가할 수 있어 비용이 상승할 가능성이 있어서 매우 중요한 서비스에나 도입하는 것이 일반적입니다. OpenAI의 인프라니까, 돈이 많으니까 이런 것이 가능하겠죠? (부럽다!)
비용 측면에서 더 고민하자면, 아직까지도 현재 비디오와 이미지 인식 기반의 o1 모델의 고급기능이 나오지 않았는데요. 이것까지 포함해서 서비스 가격을 그대로 유지하는 것이 언제까지 가능할까도 생각해 봐야 할 듯 하죠. OpenAI의 제품 책임자인 올리비에 고드멘트(Olivier Godement)는 Devday 발표 이후 인터뷰에서 이 API의 활용 사례, 가격 책정, 향후 확장 가능성에 대해 이야기 했습니다. 특히 가격 책정에서 입/출력이 일정한 것을 기준으로 시간당 비용을 계산했지만, 인간의 대화 중에 발생하는 침묵(아무런 음성데이터 입력이 없는)에 대해서는 요금이 부과되지는 않는다며 오해하지 말아달라고 했죠. 덧붙여 가격을 크게 감소시킬 로드맵을 가지고 있다고도 밝혔습니다.
추가적으로 이 API 서비스는 Function Calling에 최적화 되어 있고, 사용자 개인화를 통해 굳이 Agent 기능을 구현하는데 있어 많은 개발이 필요하지 않을 것으로 보입니다. 이 모델은 유료 개발자를 대상으로 공개 베타 버전으로 출시되었고, gpt-4o-realtime-preview라는 GPT-4o 모델로 제공됩니다. 관련하여 Chat Completion API의 오디오 스펙이 변경되고, 오디오 입력에 대한 가격이 새로 나왔습니다. 1M 토큰당 $100, 출력은 1M 토큰당 $200입니다.
Realtime API는 기존의 텍스트 기반 상호작용을 넘어 실제 음성 대화로 AI가 사람과 더욱 자연스럽게 소통할 수 있는 환경을 제공할 거고, AI앱의 혁신을 또 한 번 가져올 듯 합니다. 이 API가 특히 고객 지원, 교육, 코칭과 같은 분야에서 큰 영향을 미칠 것 이고, 일반적인 상호작용뿐만 아니라 아직 예상치 못한 다양한 분야에서 사용될 가능성도 큽니다.
DevDay 2024의 다른 주요 발표
이번 DevDay에서 발표된 다른 주요 기술로는 Vision Fine-Tuning과 Prompt Caching이 있습니다. Vision Fine-Tuning은 개발자들이 텍스트와 이미지를 함께 사용해 AI 모델을 미세 조정할 수 있도록 해주며, 이를 통해 자율 주행 차량의 물체 감지나 의료 이미지 분석과 같은 시각적 이해가 필요한 작업에서 성능이 향상됩니다. 또한 Prompt Caching은 AI 응답 속도를 최대 50% 향상시키고, 비용을 절반으로 절감하는 기능을 제공해 개발자들이 더욱 효율적인 애플리케이션을 만들 수 있게 합니다. 특히 프롬프트 캐싱은 말그대로 기존과 유사한 프롬프트와 추론의 내용을 그대로 유지하기 때문에 많은 비용부담을 가지고 있었던 서비스들에게 큰 도움이 될 것으로 보입니다.
Model Distillation 역시 주목할 만한 기술로, 큰 모델에서 나온 결과를 작은 모델에 적용해 그 성능을 향상시킬 수 있습니다. o1-preview 및 GPT-4o 같은 큰 AI 모델을 사용하여 GPT-4o mini와 같은 작은 모델을 개선/추출할 수 있는 기능이죠. 이를 통해 소형 모델에서도 고성능을 유지하며, 개발 비용을 절감할 수 있는 환경을 제공합니다. 이러한 기술은 특히 리소스가 제한된 환경에서 매우 유용할 것으로 예상됩니다.
이번 DevDay는 OpenAI가 AI 기술의 실용성을 한층 더 강화하고 있다는 점을 확실히 보여줬습니다. Realtime API를 비롯한 다양한 도구들은 개발자들이 더 효율적이고 사용자 친화적인 AI 애플리케이션을 구축할 수 있도록 돕는 같은 편(?)이라는 점도 보여줬죠. 다른 후발주자들이 쫓아올만 하면 새로운 기능, 통 큰 인터페이스 확장을 보여주는 OpenAI의 행보는 거칠 것이 없어보입니다. Azure 기반의 OpenAI 서비스는 또 늑장 오픈을 하지 않을까 싶기도 하구요. (심술!) 하지만 API로 공개되었으니 금세 Azure OpenAI 플레이그라운드에서도 만나지 않을까 싶습니다.
마지막으로 @RayFernando1337의 실제 라이브 데모 영상을 참고하시면, Realtime API의 진가를 조금이나마 보실 수 있을 듯 합니다.
#OpenAI #Devday #2024 #RealtimeAPI