음성인식+음성합성 기술 콘텐츠 쓰기가 각별했던 까닭

개념, 작동방식, 발전과정, 기술 동향, 사례 아우르기

by 딱정벌레
사진=픽사베이

음성인식과 음성합성 기술은 내가 정말 좋아하는 기술이다. 많은 기술이 편리해서 내게 유익하고 좋다고 생각하지만- 애정을 갖는다는 건 성격이 다른 듯하다. 시각 이미지가 주는 화려함도 좋지만 청각 이미지가 전달하는 또렷함에 더 이끌린다. 우리가 보통 목소리를 일컬을 때, 이는 소리에만 그치지 않는다. 누군가 생각, 의견, 주장을 통틀어서 목소리로 표현하기도 한다. 목소리를 낸다는 건 의견을 말한다는 의미도 있고. 주체성을 드러낸다는 의미도 있다. 목소리에 의미를 더 많이 부여하다 보니 본능적으로 청각에 끌린다.

이보다 더 본질적인 이유가 있는데- 내 삶 서사(?)와 맞아떨어지는 게 몇 가지 있다. 음성합성 기술은 기자로서 관련 콘텐츠를 몇 번 썼다. 한 번은 음성합성 기술 전반, 다른 한 번은 관련 기업 인터뷰. 구글 I/O 기사를 쓰면서 '구글 트랜스 크라이브' 발표를 듣고 깊은 인상을 받았다. 그것도 음성인식, 음성합성 기술과 연결돼 있는데 되게 감동적이어서 발표 보다가 괜히 훌쩍였다. 목소리가 없는 이들에게 목소리가 돼주고, 앞을 못 보는 이들에게 눈이 돼줄 수 있는 기술이라서.

좀 더 거슬러 올라가면 음성 관련 기술을 특별하게 느낄 수밖에 없었던 경험이 또 있다. 수습기자 시절 취재한 곳 가운데 '다누온'이라는 게임 개발사가 있었다. 이 회사는 시각장애인과 비장애인이 함께 즐길 수 있는 기능성 게임을 만들었다. 리듬액션 게임 '풀 메탈 러너'나 '지음'같은 게임이 그 예. 이 회사의 초기 게임 '솔메이트 리나와 하나'는 시각장애인 안내견과 주인의 이야기로 스토리텔링 했는데 감동적이었다. 다누온을 계기로 그때 기능성 게임에 관심이 생겼다. 한때 '굿게임쇼'라는 행사도 열렸는데 요즘은 어떤가 모르겠다.

사진=픽사베이

기능성 게임이 좋았던 이유는 여러 가지인데- 게임에 대한 통념을 깨 준다고 해야 하나. 기성세대 시각으로 게임은 너무 빠지면 삶에 부정적 영향을 끼치는 것 같지만 교육적인 게임도 많다. 내가 주목한 건 이게 장애인과 비장애인 사이 경계를 허물 수 있다는 점. 다누온이 개발한 게임이 그랬고. 결은 다를 수 있지만 키넥트 게임도 그랬다. 키넥트 게임으로 운동도 하고, 춤도 출 수 있는데. 신체가 불편한 학생은 키넥트로 운동 연습하는 사례도 있었다. 기능성 게임에 관심 많은 기자라고 게임 회사 관계자가 소개해준 기억이 벌써 아득해져 가네.

음성인식, 음성합성 기술 글쓰기를 이야기해야 하는데 또 딴짓하고 있다. 기능성 게임과 음성 기술이 무슨 상관이냐면- 다누온에서 만든 게임은 시각장애인이 이용할 수 있어야 하다 보니 소리로 안내를 많이 했다. 길잡이 같은 거라고 해야 하나. 음성 중요성을 실감했다. 이걸 계기로 모바일 접근성, TTS에 관심이 생겼는데. 온라인 쇼핑몰은 텍스트보다 이미지 중심이다 보니 시각장애인이 쇼핑하기 불편하다는 기사를 쓴 것도 이와 관련됐다. 온라인 쇼핑이 절실한 소비자인데. 기술이 발전해도 필요한 사람이 누리지 못하면 무슨 소용 있을까.

시각장애인 문화원에서 '시각장애인을 위한 책 읽기' 강좌를 수료한 것도 음성 기술을 향한 관심을 높이는 데 한몫했다. 그 강좌에서는 한자어나 장단음을 정확하게 읽는 법을 가장 많이 배웠다. 강사님은 시각장애인이었다. 그분은 사람들이 발음은 같아도 장단음이 따로 있고 억양도, 의미도 다른 단어를 별 차이 없이 발음하는 데 문제의식이 컸다. 특히 방송인이 이를 분별없이 발음하는 걸 불만스러워하셨다. 그 불만을 무척 자주 표출하셨다.

사진=픽사베이

처음엔 공감하며 들었는데 반복해서 들으니 나중엔 조금 괴로웠다. 그 말이 지겨워서가 아니었다. 어떤 감각이 차단됐을 때 느끼는 고통이 너무 절절하게 다가왔기 때문이다. 그분은 나보다 훨씬 더 많은 한자를 알았다. 한자어 뜻이 제각기 다양하고 발음이 같지만 의미가 다른 단어를 누군가 별 차이 없이 읽어주면서 자신이 어휘를 보다 풍성하게 익힐 수 있는 기회를 놓친 걸 아쉬워했다. 그분이 정보를 접하는 주 경로는 청각, 음성이니까. 그걸로 온전한 정보를 접할 수 없을 때 느끼는 무력감을 생각하면- 음성 기술 중요성이 와 닿는다.

생각해보면 사람은 발음 장단음을 정확히 모르는 경우가 많지만- AI에게 이를 정확히 학습시키면 시각장애인에게 도움이 될 수 있다. 음성합성 기술로 만든 오디오북에서 장단음을 정확히 구분하고 단어를 정확히 발음하고 같은 단어도 의미에 따라 억양을 달리 해서 읽으면- 어휘 다양성을 청각으로 충분히 알릴 수 있고, 어휘 지식 폭을 넓힐 수 있고. 정말 필요한 기술이다. 스마트폰 액정에 이상이 생기고, 키보드가 잘 안 먹혀서 요즘 음성인식으로 문자를 입력하거나 기능을 작동시키곤 한다. 여기서도 음성 기술 가치를 새삼 실감한다.

왜 이 기술에 애정을 갖고 있는지 쓰는 데에만 8 문단을 할애했다. 논리적으로 설명하지 못한 것 같지만 이런저런 경험 때문에 이 기술이 내게 특별했다. 그렇다 보니 해당 업체에서 이 주제로 글을 써달라고 제안했을 때 굉장히 기쁘고 감사했다. 내가 좋아하는 기술이니까. 오디오북, 팟캐스트 시장은 계속 성장하고 있고 이건 계속 뜰 수밖에 없는 기술이다. 아무리 써도 질리지 않아. 그전에 쓴 글도 담아내지 못한 내용이 많다. 기술은 나날이 발전하고 있으니까. 내가 전에 썼다 해도 업데이트해야 할 것도 많다.

사진=픽사베이

그러나 걱정도 많이 됐다. 내가 그전에 쓴 건 음성합성 기술이었는데 이번에는(작년에 쓴 글이지만) 음성인식과 음성합성 기술을 동시에 써야 했기 때문. 음성합성만으로도 분량이 많다고 생각했다. 두 기술을 한 글에 담는 건 사실상 기술 콘텐츠 두 개를 쓰는 것과 같았다. 시간이 빠듯하고 부담도 됐다. 그전에 쓴 글을 보니 그걸 믿고 가기에는 허접했다. 모든 조사를 새로 해야 하고. 일반적인 음성인식, 음성합성 기술만 다루는 게 아니라 그것도 기본으로 깔고 해당 기업의 관련 기술을 설명해야 하니 할 게 많았다.

부담은 부담이고 꾸역꾸역 했다. 해당 기업 기술을 살펴보면서 질의사항을 추렸다. 기술 백서에서 모르는 내용을 묻고 답변을 받았다. 이를 토대로 글을 썼다. 덕분에 내용이 더 풍성해진 듯해서 좋았다. 시간 압박은 있어도 그때가 가장 집중도 놓고 생산성도 높은 시기. 새로운 기술 동향도 배워서 유익했다. 음성합성을 하려면 데이터가 많아야 할 것 같지만 꼭 그렇지만 않다. 요즘은 적은 데이터로도 충분히 만들 수 있다. 그런 사례도 많고. 덕분에 몰랐던 개념도 배우고. 내가 공부하고 배우고 성장할 수 있는 글을 쓴다는 건 감사한 일.

전개 방식은 이렇다. 역시나 시의성이 중요하고 글 쓰던 당시도 코로나 19 대유행이 확산한 지 얼마 안 됐을 때라- 그것과 연결 지어서 서두를 풀려고 했다. 음성인식과 음성합성은 비대면 기술로 쓰이기도 하고. 거시적으로는 차세대 인터페이스 측면에서 음성 기술 중요성도 언급했다. 이 기술을 왜 알아야 하냐는 점과 관련해서. 본론에서는 음성인식과 음성합성 기술 각 개념과 작동원리, 역사, 발전과정, 음성이 터치스크린 대체자인 이유, 최근 기술 동향, 해당 기업 기술 특징, 이를 도입한 사례를 담았다. 이어 내용을 요약하며 글을 마무리.

사진=픽사베이

참고자료는 언론보도와 보고서, 기술 콘퍼런스 발표 자료, 기술 블로그 등을 봤다. 언론보도는 중앙일보, 동아일보, 조선비즈, 공학 저널, 뉴스핌 등 두루 봤는데 트렌드나 동향 파악용으로 많이 참조했다. 공학 저널은 전문가 인터뷰에서 통찰을 줄만한 내용이 있어서 참고했다. 보고서는 연구기관이나 투자기관 자료를 봤는데- 연구개발특구 진흥재단, 한국콘텐츠진흥원, 삼정 KPMG, 미래에셋 대우 보고서를 봤다. 말 그대로 시장 동향이나 차세대 인터페이스로서 음성 의미, 기술 역사나 발전과정 등을 파악하는 데 유용했다.

기술 콘퍼런스 발표 자료는 네이버 데뷰 행사 자료를 참고했다. 기술 블로그는 엔씨소프트 기술 블로그를 참조했다. 기술 작동원리나 동향 등을 조사하는 데 도움됐다. 데뷰는 기자 시절 음성합성 기술 콘텐츠를 쓰기로 결심한 데에 큰 영향을 준 행사다. 네이버는 음성합성 기술에 진심이다. 유인나 오디오북처럼 음성합성 기술로 오디오북을 만들고 여러모로 적극적이다. 데뷰에 처음 간 건 2018년이지만 이듬해 데뷰에서도 음성합성을 주제로 한 발표는 또 있었다. 기술 콘퍼런스는 내게 학교이자, 과외 선생님. 배운 게 너무 많고 고맙다.

엔씨소프트 기술 블로그도 기자 시절 음성합성 기술 콘텐츠를 쓸 때 참고한 적 있다. 난 엔씨소프트 기술 블로그 콘텐츠가 정말 좋다고 생각한다(요즘은 스마일게이트도 괜찮다. 관리 들어간 듯). 엔씨소프트도 AI를 꾸준히 연구하고 있어서 도움되는 콘텐츠가 많았다. 회사 기술동향을 파악하기에도 좋고. 그 회사 기술을 잘 아는 건 아니지만 엔씨소프트 K팝 플랫폼인 '유니버스'에도 AI 접목이 눈에 띄었다. 특히 음성합성 기술. 뮤지션 AI 목소리로 통화하는 기능이 그렇고(레플리카도 통화할 수 있지만).

사진=엔씨소프트

난 유니버스가 기술적으로 흥미롭다. 빅히트 위버스는 잘 모른다. 다만 내가 관심 가는 기술은 유니버스에서 더 엿보였다. 빅히트도 AI로 신해철을 구현해서 뭘 한다고 하던데 진행했나 모르겠다. AI와 미디어, 콘텐츠, 엔터테인먼트 접목 속도가 예상보다 굉장히 빠르다. 결과물도 무척 수준급이고. 그만큼 기술이 급속도로 발전하고 있고, 고도화됐다는 의미겠지. 고인을 소환하는 딥페이크 사례는 얼마나 많은가. 고인 의지와 상관없이 그를 자꾸 부활시키고 소환하는 게 좋은지 잘 모르겠지만.

이번 글 회고는 자꾸 옆으로 많이 샌다. 작성 과정 이야기로 돌아가면- 서두에서는 앞서 다룬 AI 컨택센터 이야기를 간략히 언급하면서 음성인식 이야기를 끌어냈다. 챗봇과 음성인식이 AI 컨택센터를 구현하는 핵심 기술이란 점에서 음성인식이 비대면 소통과 관련된 기술임을 보여주고자 했다. 회의록 작성, 자막 제작, 자가 격리자 상태 확인 전화 등 사례를 언급한 것도 이 때문. 음성인식은 일상에서 많이 구현된 기술이라 사례를 간략히 제시하며 이를 좀 더 가까이 느낄 수 있게 하려고 했다. AI 스피커, 음성 검색, 쇼핑몰 음성 주문 등이 그예.

음성합성과 비대면 소통 관련성을 보여주는 게 애매하다 싶었는데 길을 찾았다. KT '내 목소리 동화'에서는 부모님 목소리를 합성해서 아이에게 동화책을 읽어주는 콘텐츠를 선보였다. 이걸 이용하면 부모님이 옆에 없어도 마치 곁에서 책을 읽어주는 느낌이 들 수 있다. 생각해보니 음성합성 자체가 본질적으로 비대면 기술이다. 누군가 목소리를 모방해서 만들어 틀어주는데 이건 그 사람이 없을 때도 쓸 수 있고, 이로써 그 사람과 소통하는 느낌이 들 수도 있으니까.

사진=픽사베이

서두에서는 시의성 있는 현안을 다루는 것도 중요하지만- '왜 이 시점에 이 주제를 다루느냐'를 담아야 한다. 이는 이 주제가 왜 중요하냐 와도 연결됐는데. 차세대 인터페이스이자 터치스크린 대체자로서 음성 의미를 다룬 것도 이 때문이었다. 모든 디지털 기기는 음성으로 연결된다는 전망도 나왔고. AI 음성인식 기술이 일부 연령층에서 대중화 단계에 들어섰다는 과학기술정보통신부 조사 결과도 있어서 주제 당위성을 뒷받침하는 데 도움됐다. 우리 일상 필수가 된 음성 기술 의미를 짚고 최근 기술 동향을 간략히 언급하며 서두를 마무리 했다.

본론 1에서는 음성인식 정의와 작동원리, 사례, 역사, 발전과정, 터치스크린 대체자로 떠오른 이유를 다뤘다. 터치스크린 대체자로 부상한 이유에서는 음성 자체 특성과 높은 인식률을 언급했다. 전자의 경우, 모바일 기기 이동성과 음성 편의성을 연결 지어서 설명했다. 시각장애인이 이용할 수 있다는 점도. 음성인식 발전 수준을 이야기할 때는 주요 기업 기술 인식률과 기능, 학습시간과 학습량도 다뤘다. 글을 다시 보니 분량이 그렇게 길지 않은데 알짜 내용을 압축해서 잘 다뤘다 싶다. 쾌적하다.

본론 2에서는 음성합성 정의와 작동원리, 역사, 제작방식, 딥러닝이 음성합성을 어떻게 효율화했는지, 개발 동향, 사례를 설명했다. 개발 방향에서는 개인화, 효율적인 합성 방식, 감정과 스타일을 조절하는 방법 등을 다뤘다. 이제는 적은 데이터로 빠르게 음성을 합성할 수 있는데- 10~40분 분량 데이터로도 만들 수 있다고. 엔씨소프트에서는 김영하 작가 목소리를 10분 녹음한 걸 갖고도 목소리를 만들어냈다. 이런 사례를 글에서 언급했다. 요즘은 어떤지 모르겠지만 점점 단축되지 않을까 싶기도.

사진=픽사베이

본론 3에서는 해당 기업의 음성인식과 음성합성 기술 특징을 다뤘다. 음성인식에서는 확보한 데이터 분량, 언어 수, 음성 데이터를 확보한 화자 수를 설명했다. 최대 특장점은 적은 데이터로도 인식률이 높은 음성인식 엔진을 개발했다는 점인데 이를 강조했다. '액티브 러닝'이라는 기술도 설명했다. 이는 학습에 필요한 선별 데이터가 풍부하지 않을 때 데이터 일부만 학습시켜 활용하는 기술이다. 해당 기업이 이 기술을 타 기업과 공동 연구하고 이걸로 음성인식 비용과 시간을 크게 줄일 수 있었는데 이 내용을 함께 담았다.

음성합성에서는 개발방향과 특장점, 자연스러운 음성을 만드는 방법, 여기에 쓰는 모델, 한국어 음성합성 엔진 보완 방식 등을 설명했다. 적은 데이터로 빠르게 음성을 만들 수 있다는 것도 이 회사 강점이었다. 본론 4에서는 해당 기업에서 위 기술을 접목한 한 사례를 다뤘다. 평양 사람 말투로 북한 정보를 알려주는 AI가 그 주인공이었다. 어떤 데이터베이스를 여기에 사용했고, 분량은 어느 정도였으며, 어떤 점을 신경 썼는지 등을 담았다. 지금 다시 봐도 좋은 사례였던 것 같다. 이런 건 상시 교육 콘텐츠로 유료 판매해도 좋을 듯.

글 쓰는 과정이 만만치 않지만 큰 한계나 아쉬움은 없었다. 분량, 밀도, 준비과정 모두 만족스러웠다. 내가 좋아하는 기술을 다뤄서 반가웠던 것도 한몫한 듯. 늘 낯가림하는 기분으로 글을 쓰는데 이건 그게 덜했다. 그렇다고 쉬웠던 건 절대 아니다. 작성 과정과 결과물을 다시 보니 돌아가고 싶은(?) 느낌이 들 정도로 좋다. 왜 갈수록 글 쓰는 데 시간이 더 걸리는 걸까. 주제를 정하는 방식이나 자료 조사과정이 이때와 많이 다른 까닭도 있지만. 시간을 너무 끄는 것 같아서 도요타 생산방식처럼 작업 과정을 크게 효율화하면서 품질은 높이고 싶다.

keyword
이전 02화AI가 바꿀 콜센터 현재와 미래 글쓰기