메타는 AI 비서의 목소리에 인간과 같은 감정과 톤을 담을 수 있는 새로운 오픈 소스 모델을 출시했다고 발표했다. 이는 최근 출시된 GPT-4o의 '고급 음성 모드(AVM)'에 대응하기 위한 움직임으로 보인다. 새로운 모델인 'Meta Spirit LM'은 음성과 텍스트를 원활하게 통합하며, AI 상호작용의 감정적 사실감을 크게 향상시키는 것을 목표로 한다.
Meta Spirit LM 모델은 Spirit LM 베이스와 Spirit LM 익스프레시브 두 가지 버전으로 제공된다. 베이스 버전은 단순한 음성 변환 모델이지만, 익스프레시브 버전은 톤, 피치, 감정과 같은 인간 목소리의 미묘한 요소를 포착할 수 있다. 이 기술은 기존의 표현력이 부족했던 텍스트-음성 변환(TTS) 시스템과 차별화되며, '인터리빙(interleaving)'이라는 새로운 멀티모달 접근 방식을 통해 텍스트와 음성 데이터셋을 동시에 학습할 수 있도록 했다.
익스프레시브 모델은 한 단계 더 나아가 음성 토큰에 피치와 스타일 토큰을 통합하여 흥분이나 분노와 같은 복잡한 감정을 반영할 수 있는 음성을 생성한다. 이를 통해 스토리텔링, 감정 중심의 가상 비서, 고급 대화형 시스템과 같은 복잡한 애플리케이션의 수준을 한층 끌어올릴 것으로 기대된다.
메타의 연구 결과에 따르면 익스프레시브 모델은 기존의 자동 음성 인식(ASR) 및 TTS 기반 접근 방식보다 더 자연스럽고 감정적으로 풍부한 출력을 제공하여 음성-텍스트 벤치마크인 'STSP'에서 효과적인 감정적 의도를 유지했다고 한다. 이는 AI 상호작용을 가능한 한 자연스럽고 인간적인 경험으로 만드는 데 있어 큰 진전이다.
Meta Spirit LM의 공개는 최근 메타가 LLaMA 시리즈 최초의 멀티모달 모델인 'LLaMA 3.2'를 소개한 이후 이어진 것이다. 이 모델에는 유명 배우들의 목소리도 포함되어 있다. 마크 저커버그 CEO는 음성이 텍스트보다 AI와 상호작용하는 훨씬 더 자연스러운 방법이라고 언급했다. 새로운 모델은 다양한 목소리를 챗봇에 통합하여 GPT-4o와 유사한 성능을 제공할 것으로 기대된다.
한편, 메타는 이날 '자가학습 평가자(Self-Taught Evaluator)'라는 자가 감독 평가 모델도 출시했다. 이 모델은 인간의 라벨링 없이 최적의 응답을 판단하는 평가형 LLM(LLM-as-a-Judge) 개념을 도입해, 보상 학습 과정에서 인간의 라벨링 과정을 제거하고 LLM 자체로 학습 데이터를 생성한다. 이로 인해 'LLM의 품질과 정확성을 평가하는 AI'로 알려져 있다.
메타의 최근 발표에는 이미지 및 비디오 애플리케이션을 위한 'Segment Anything Model (SAM) 2.1' 등의 여러 새로운 기술도 포함되어 있으며, 다양한 모달리티를 아우르는 AI 기능 확장에 대한 메타의 의지를 강조하고 있다.