#음성인식시스템 #다국어 #Omnilingual ASR #라라크루
AI가 인간의 언어와 문화를 대하는 태도가 어떻게 달라져야 하는지 생각하게 해준 논문이었습니다. 이 연구는 기술적 성과보다도 커뮤니티 중심의 접근과 윤리적 고려라는 중요한 메시지를 담고 있어 더욱 의미 있게 다가왔습니다. 인간의 다양한 언어까지도 AI가 얼마나 넓게 사용되고 있는지를 볼수 있는 논문이었습니다.
모든 언어를 위한 자동 음성 인식: 1600개 이상의 언어를 위한 오픈 소스 다국어 음성 인식 시스템 / Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages
자동 음성 인식(ASR) 기술은 일부 주요 언어에서는 놀라운 수준까지 발전했지만, 여전히 세계의 대부분 언어는 ‘지원되지 않는 영역’에 머물러 있습니다. 7,000여 개 언어 중 상당수가 기술의 혜택에서 멀어진 이 상황을 바꾸기 위해 등장한 것이 바로 Omnilingual ASR입니다. 확장성을 중심에 두고 설계된 이 시스템은, 단 몇 개의 샘플만으로도 새로운 언어를 추가할 수 있도록 설계된 최초의 대규모 다국어 ASR 모델입니다. 70억 개의 파라미터로 학습한 자기 지도 모델과 제로샷 일반화를 염두에 둔 인코더–디코더 구조 덕분에, 모델은 한 번도 본 적 없는 언어에도 놀라운 적응력을 보입니다.
이 연구의 가장 큰 혁신은 1,600개 언어로의 확장이라는 점입니다. 그중 500개 이상은 그동안 어떤 ASR 시스템에서도 지원된 적 없던 언어들이죠. 자동 평가에서도 기존 시스템 대비 두드러진 향상을 보였고, 연구진은 사용 목적에 따라 3억~70억 파라미터 규모의 여러 모델을 함께 공개했습니다.
데이터 수집 과정 또한 의미가 깊습니다. 오픈 소스 데이터셋과 다양한 지역 커뮤니티 파트너십을 통해 모은 녹음은, 특히 기술 격차가 큰 아프리카 언어에 대한 지원을 강화하는 데 초점을 맞추고 있습니다. 각 언어마다 약 10시간의 고품질 음성을 확보하기 위해 맞춤형 녹음과 전사 작업이 진행되었고, 언어 코드 오류를 바로잡기 위한 검증 프로젝트 역시 함께 운영되었습니다.
결국 Omnilingual ASR은 단순히 성능 좋은 모델 그 이상입니다. 모델과 도구를 모두 오픈 소스로 공개함으로써, 연구자와 커뮤니티 모두가 쉽게 참여할 수 있는 기반을 마련했습니다. 언어적 다양성을 존중하고 기술 접근성을 넓히는 데 있어 중요한 전환점을 만들어낸 연구라 할 수 있습니다.
자동 음성 인식(ASR)은 고자원 언어에서 발전하였지만, 세계의 7,000개 이상의 언어 중 대부분은 지원되지 않아 수천 개의 긴 꼬리 언어가 뒤처져 있습니다. ASR 범위를 확장하는 것은 비용이 많이 들고 언어 지원을 제한하는 아키텍처로 인해 제한을 받으며, 커뮤니티 협력 없이 추진될 경우 윤리적 문제와 얽혀 있습니다. 이러한 한계를 극복하기 위해, 우리는 확장성을 위해 설계된 최초의 대규모 ASR 시스템인 Omnilingual ASR을 소개합니다. Omnilingual ASR은 커뮤니티가 소수의 데이터 샘플만으로도 서비스되지 않는 언어를 도입할 수 있도록 합니다. 이 시스템은 70억 개의 매개변수로 자기 지도 사전 학습을 확장하여 강력한 음성 표현을 학습하고, LLM에서 영감을 받은 디코더를 활용하여 제로샷 일반화를 위해 설계된 인코더-디코더 아키텍처를 도입합니다. 이 기능은 방대한 다양성의 훈련 코퍼스에 기반하고 있으며, 범위의 폭과 언어적 다양성을 결합하여 모델이 보지 못한 언어에 적응할 수 있을 만큼 강력한 표현을 학습합니다. 보상받는 지역 파트너십을 통해 수집된 커뮤니티 소스 녹음과 공공 자원을 통합하여, Omnilingual ASR은 1,600개 이상의 언어로 범위를 확장하며, 이는 지금까지의 가장 큰 노력으로, 500개 이상의 언어는 ASR에 의해 이전에 서비스된 적이 없습니다. 자동 평가 결과는 특히 저자원 조건에서 이전 시스템에 비해 상당한 향상을 보여주며, 강력한 일반화를 나타냅니다. 우리는 Omnilingual ASR을 저전력 장치를 위한 3억 개 변형부터 최대 정확도를 위한 70억 개 변형까지 모델 패밀리로 출시합니다. 이 디자인을 형성하는 윤리적 고려 사항을 반영하고, 사회적 영향을 논의하며 결론을 맺습니다. 특히, 모델과 도구의 오픈 소스화가 연구자와 커뮤니티의 장벽을 낮출 수 있는 방법을 강조하며, 새로운 형태의 참여를 초대합니다. 오픈 소스 아티팩트는 GitHub - facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages 에서 이용 가능합니다.
https://arxiv.org/abs/2511.09690?utm_source=pytorchkr&ref=pytorchkr