차량 & 스마트홈용 오픈 소스 음성 AI 모델 공개
샤오미(Xiaomi)는 지난 월요일 MiDashengLM-7B라는 오픈소스 음성 AI 모델을 출시했습니다. MiDashengLM-7B는 샤오미의 자체 음성 인코더인 Dasheng과 알리바바의 오픈소스 디코더인 Qwen 2.5-Omni-7B를 결합한 하이브리드 모델입니다.
이번에 공개된 AI 모델은 음성 인식뿐 아니라, 환경음, 배경 음악, 생활 소음까지 감지 가능한 멀티모달 모델입니다. 게다가 속도나 효율성 측면에서 특히 우수해서, 동종 모델 대비 최대 3.2배 빠른 처리 속도, 20배 많은 동시 처리 용량을 자랑합니다. 지연시간(TTFT)은 경쟁 모델보다 약 4배 낮은 수준이며, 적은 하드웨어 자원으로도 실시간 대응이 가능합니다.
놀라운 사실은 샤오미는 이미 30개 이상의 제품에 이 AI 모델을 적용 중이라는 것입니다. 대표적인 것이 SU7과 YU7 자동차와 스마트홈 기기들인데요, 자동차의 경우 음성 제어, 네비, 음악 재생 명령은 물론, 실시간 발음 피드백과 같은 언어 학습 기능도 지원합니다.
보이스 AI 모델 하면 으레히 미국 기업들의 것을 소개하는데요, 제가 굳이 샤오미의 AI 모델을 소개하는 이유는 이 모델은 이미 상용화되고 있다는 것 때문입니다. 뭐 수준이 낮아서 그렇다고 할 수도 있겠지만, 아마존, 애플, 구글 등이 생성형 AI와의 통합에 어려움을 겪고 있는 상황에서 매우 주목할 만하죠.
무엇보다, 2024년부터 HarmonyOS를 기반으로 Human x Car x Home 이라는 통합 생태계 전략을 추진하고 있는데요, 이제 그 중심에 음성 AI를 배치함으로써 사용자들의 접근성이나 이용 경험을 개선하고자 한다는 것입니다. 일단은 중국 시장에서의 우위를 차지하는 것이 일차 목적이겠지만, 머지 않아 세계 시장에서의 우위까지도 노리지 않을까 생각합니다.