LLM 자체보다 고객과의 인터랙션에 중점
메타는 2025년 여름 두 차례의 인수를 통해 음성 AI 역량을 대폭 강화했다. 1) 7월에는 약 59명 규모의 플레이AI, 2) 8월에는 약 52명 규모의 웨이브폼스를 품에 안았다. 두 회사 모두 수백억 원에서 2천억 원대 밸류를 인정받은 신생 스타트업이었다. 저커버그 대표는 음성 AI 기반, 개인의 생활과 사회적 연결에 집중하는 디지털 동반자를 만들겠다는 목표를 내세우고 있다.
(1) 플레이AI는 자연스러운 음성 생성 플랫폼을 개발하며 AI 캐릭터, 웨어러블, 오디오 콘텐츠 제작 등 다양한 분야에 기술을 적용해 왔다. 인수 금액은 공개되지 않았으나 수천만 달러(수백억 원)에서 1억 달러(약 1,300억 원) 미만으로 추정된다.
이 스타트업의 강점은 억양과 감정을 세밀하게 구현하는 음성 합성 능력으로 알려져 있다. 기계음 특유의 이질감을 줄이고, 실제 사람과 대화하는 듯한 몰입감을 제공한다. 이러한 기술은 메타버스, AR/VR, 스마트안경과 같은 차세대 기기에서 사용자 경험을 혁신할 수 있다.
메타가 플레이AI를 선택한 이유는 멀티모달 상호작용 확대에 있다. 음성을 중심에 둔 인터페이스는 텍스트나 이미지보다 진입 장벽이 낮고 사용자의 참여도를 높인다. 메타는 이를 기반으로 메신저, 소셜 네트워크, 웨어러블 기기 전반에서 끊김 없는 대화를 지원하는 생태계를 설계하고 있다.
(2) 웨이브폼스는 설립 8개월 만에 투자 전 기업가치 1억6천만 달러(약 2,080억 원)를 기록하며 실리콘밸리의 주목을 받았다. 공동 창업진에는 메타·오픈AI 출신 알렉시스 코노와 구글 광고 전략가 출신 코랄리 르메트르가 포함됐다. 특히 코노는 오픈AI에서 GPT-4o 고급 음성 모드 신경망 개발을 담당한 핵심 엔지니어였다.
웨이브폼스는 감정과 자기 인식을 반영한 목소리를 구현하는 데 집중했다. 회사의 미션은 ‘AI 음성의 투명성을 검증하는 음성 튜링 테스트’였다. 인간 목소리와 구별이 불가능한 음성을 만들면서도, 신뢰와 안전성을 유지하는 방안을 함께 연구했다. 웨이브폼스는 앤드리슨 호로비츠로부터 거액 투자를 유치했고, 공식 서비스 출시 전에 메타에 인수됐다.
한국의 ‘슈퍼톤’이 웨이브폼스와 유사한 지향점을 가지고 있다. 하이브 자회사인 ‘슈퍼톤’은 가수의 목소리를 재현하고 감정을 표현하는 AI 음성 합성 기술로 주목받고 있다. 음악과 엔터테인먼트 분야에 집중해왔지만, 감정 전달과 자연스러운 발화를 구현한다는 점에서 웨이브폼스와 기술적 지향점이 닿아 있다.
플레이AI와 웨이브폼스의 기술은 앞으로 메타의 차세대 모델 라마 4에 통합될 전망이다. 라마 4는 기존 텍스트-음성 변환을 넘어 음성을 모델의 핵심 작동 방식으로 채택할 가능성이 높다. GPT-4o 수준의 자연스러운 실시간 대화를 구현하고, 1,000만 토큰의 컨텍스트 창을 지원해 장기 대화와 복잡한 요청까지 처리할 것으로 예상된다.
이러한 통합은 메타버스, 소셜 플랫폼, 웨어러블 전반에서 시너지를 낼 가능성이 크다. 레이밴 스마트 안경에는 음성 인터페이스가, 페이스북·인스타그램·왓츠앱에는 AI 음성 비서가 탑재될 수 있다. 메타는 이를 기반으로 대화·공감·조언이 가능한 ‘목소리 중심 초지능’을 완성해, 초개인화와 플랫폼 결합으로 시장 주도권을 노릴 것으로 보인다.
일레븐랩스와 아마존 알렉사를 비롯해 앞으로 목소리 AI 분야의 경쟁은 한층 치열해질 것이다. 콜센터, 시니어 케어, 1:1 캐릭터 대화 등 B2C AI 영역에서 목소리는 핵심 기술로 자리 잡을 전망이다. LLM 경쟁에서 밀린 메타가 이 기술에 뛰어든 것은 어쩌면 자연스러운 선택이다.