brunch

You can make anything
by writing

C.S.Lewis

by 스티봉 잡서 Jul 01. 2023

내 후원 아동의 말귀 알아먹기

자동 음성인식 기술을 활용하여

"후원 아동의 영상이 도착했어요!"


내가 수년 전부터 후원하고 있는 한 단체에서 후원자들에게 영상을 보내왔다. 

후원하고 있는 아이의 영상 편지라고 해서 기대하는 마음으로 열었는데 응? 무슨 말을 하는지 모르겠다. 

아이는 현지어로 말하는데(물론 그나마 조금 알아들을만한 영어도 아니고) 자막도 없고. 

영상 아래 설명을 보니 자기소개와 좋아하는 것들을 말하고 있는 거라는데 그 설명은 해 주면서 왜 실제 말하는 내용은 안 알려줄까? 궁금한 마음에 촬영 비하인드 스토리를 더 들여다보니... 

역시! 나만 궁금해 한 건 아니었다. 

후원자들이 가장 많이 하는 질문 1번이 아이가 무슨 말을 하는 건지 궁금해하는 것이었으니... 

기관의 설명을 보니 번역을 제공해 주고 싶지만 대부분의 아이들이 표준어가 아닌 지역 방언으로 이야기하는 경우가 많아서 지역 방언을 해당 국가 표준어로 바꾸고 그걸 또 영어로 바꾼 다음 다시 한국어로... 음... 

듣고 보니 번역이 어려울 것도 같네. 그리고 같은 이유로 자동 번역도 어렵다는데...

앞으로는 이런 사유로 아이의 음성이 아닌 활동을 찍어서 보내 주신다고는 하는데, 내 입장에서는 아이가 이야기하는 것을 듣는 게 훨씬 친밀하게 느껴질 것 같다.

아이가 이야기하는 것을 100% 정확하지 않아도 대충이라도 내용을 알 수 있으면 참 좋을 텐데.


자, 그래도 내가 명색이 빅테크에 다니고 있으니(비록 엔지니어는 아니지만 ㅎ) 자동 번역이 정말 안 되는 것인지 확인해 보자.

먼저 손쉽게 바로 활용할 수 있는 빅테크들의 자동 음성인식 기술을 비교해 보았다.

AWS와 Google의 자동 음성인식 및 번역 기술 비교 (cloudcompiled.com/blog/transcription-api-comparison/의 내용 재구성)

비교 결과를 정리해 보면 AWS가 더 저렴하고 자동으로 자막을 생성해 주는 편리함이 있는 반면, 지원 언어에 있어 구글보다 훨씬 적은 수의 언어를 지원한다는 치명적인 약점이 존재했다. 

정확도는 큰 차이가 나지 않으므로 아이들의 말을 이해하는 데는 양측 서비스 모두 큰 문제가 없을 것 같다.

결론적으로 예산 및 인력이 충분하고 지원해야 할 언어가 많다면 구글을, 예산 및 인력이 모자라고 지원해야 할 언어가 많지 않다면 AWS를 선택하는 것이 합리적인 의사결정일 것으로 보인다.

그런데 만약 예산이 하나도 없다면? 가난한 나라에서 상기 서비스와 유사한 Use Case를 가지고 구축하고 싶은데 돈이 없어서 오픈소스로 개발해야 한다면? 

검색을 해 보니 DeepSpeech(바이두에서 공개), Kaldi 등이 GitHub에 올라가 있어서 얼마든지 내려서 쓸 수는 있을 것 같긴 한데 몇 가지 언어를 지원하는지 등을 찾기가 영 어렵다. (내가 못 찾는 건가 ㅠㅠ)

여하튼 오픈소스는 특징 상 다수의 참여자나 기여자가 없으면 특정 국가의 언어를 Training 할 수 없어서 빅테크의 상용 제품 대비 지원 언어가 많을 것 같지는 않다.


계정이 있는 AWS Transcribe를 활용하여 비디오 클립을 번역해 봤더니 아래와 같이 음성을 텍스트로 변환해 주었다. 

"hi అండి అని వాళ్ళ వాసి one hour bubble మత గిల్ట్ tie both of salt మిషన్ పాలకి మధ్య నిర్దిష్ట కురేషి ముందు రతీష్ బాయ్ బాయ్ బాయ్ బాయ్ తాత."

그런 다음 AWS Translate를 활용하여 영어로 번역해 보니 아래와 같이 번역되었다.

“The dude of them called hi andi one hour bubble religious gilt tie both of salt mission palaki between certain Kureshi before Ratish Boy Boy Boy Boy Grandfather.”

하이~라고 인사하고 뭔가 할아버지로 끝난 거 이외에는 도통 알아들을 수가...ㅠㅠ

기관에서 안내해 준 대로 자동번역도 어려운 것이었나..


AWS 번역의 수준 문제일 수도 있으니 Google Speech-to-Text도 돌려 보았다.

어? 언어 자동 인식 기능이 없네? 언어 자동 인식 기능을 쓰려면 무언가 프로그램을 하라고 한다. 하아...

일단 방글라데시로 선택하고 돌려보자.

무엇이 잘못되었는지 몰라도 아래 에러 메시지가 나오면서 돌아가지도 않는다. 나쁜 구글...

"Invalid recognition 'config': bad encoding"

직접 두 가지 서비스를 사용하면서 내린 결론은 초보자는 구글을 사용하기 쉽지 않다는 것과 AWS로 돌린 것은 무언가는 뱉어주지만 내용을 알아보기는 힘들다는 점.

이렇게 나의 첫 번째 인공지능 서비스 활용은 실력 탓인지 서비스 탓인지 오디오 퀄리티 탓인지 몰라도 실패로 돌아갔다.

xx아~ 말귀 못 알아 들어서 미안해!!! 

그래도 얼굴 봐서 좋았어~~~^^


p.s. 이 글은 22년 말 기준으로 쓴 것이므로 위에 언급한 회사들에서 더 좋은 서비스를 그 사이에 내어 놓았을 수도 있습니다~^^





작가의 이전글 별다를 것 없는 직장 생활 이야기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari