세상을 읽는 기본 상식, 음성인식

Jul 5. 2021

[ 글을 시작하기 전에 ]

음성 인식 기술이라는 것을 처음 봤던 것은 아주 어렸을 적에 미국 드라마인 전격 Z작전이었던 것으로 기억한다. 멋진 디자인의 자동차가 주인공과 대화를 하면서 범죄자들을 소탕하는 영화였는데 매우 즐겁게 봤었다.

자동차는 매우 똑똑해서 주인공이 말하면 원하는 시간에 제깍제깍 나타나고 위험에 빠진 주인공을 구해주는 결정적인 역할도 하면서 드라마 외적으로도 큰 인기를 끌었었다.

최근에는 이런 똑똑한 기계의 대명사로 아이언맨의 비서로 나오는 자비스라는 음성 인식 인공지능이 유명하다. 시대가 바뀌면서 음성 인식 인공지능도 엄청나게 발전된 것이다.

이런 음성 인식 인공지능이 이제는 서서히 우리 삶에 들어오기 시작했다. 스마트 스피커라는 형태로 혹은 스마트 폰의 한 가지 기능으로서 말이다. 그리고 먼 미래에는 누구나 자비스나 혹은 전격 Z 작전의 자동차 한 대씩은 다들 가지게 되지 않을까 상상해 본다.

이런 음성 인식 기능이 무엇인지 어느 정도 수준에 와 있는지 한 번 알아도는 것도 좋을 것 같았다. 그러면 음성 인식 기능에 대해서 함께 알아보도록 하자.

Ⅰ. 음성 인식이란?

음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. 음성을 문자로 전환한다는 뜻으로 STT(Speech-to-Text)라고도 한다. 음성인식은 결국 키보드 대신 문자를 입력하는 방식으로 사용되는 것이다. 키보드 같은 주변 기기의 도움 없이도 인간과 기계가 소통할 수 있다는 장점으로 인해서 음성 인식은 미래의 주요 기술로 주목받고 있는 것이다.

< 음성 대화 인터페이스 기반 서비스 구성 > (출처 : saltlux)

음성 인식의 대표적인 알고리즘은 HMM(Hidden Markov Model)이라고 불리는데 기본적인 원리만 이해를 하도록 하자. 이는 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향 모델을 구성한 뒤에 음성 데이터를 수집한 뒤, 언어 모델을 구성하는 것이다.

이를 활용하면 음성 명령을 내리는 것 외에도 미리 기록해 둔 특정인의 음성 패턴과 비교해 개인 인증 등의 용도로 사용할 수도 있다. 향후 비밀 번호 인증 같은 분야에서도 활용이 가능하다.

< 음성 인식과 스마트 스피커 이미지 > (출처 : saltlux)

현재 음성 인식 기술은 상용화를 넘어서 AI 인공지능을 활용한 단계까지로 발전이 되었다. 음성으로 명령을 내리면 AI가 검색이나 음악 재생, 쇼핑까지의 다양한 기능을 처리해 주는 것이다. 이는 스마트 스피커의 보급 증가로 인해서 상용화되고 있으며 스마트 TV, 커넥티드 카에서도 활용이 가능할 것으로 기대되고 있다. 궁극적으로는 스마트폰의 뒤를 이을 차세대 인터페이스이자 플랫폼이 될 것으로 보인다.

무엇보다도 음성 인식 기술이 주목받는 이유는 인간이 의사를 표현할 수 있는 가장 편리하고 간단한 방법이 음성 명령이기 때문이다. 때문에 이를 활용한 기술이 보편화되었을 경우 인간은 상상할 수 있던 다양한 불편함에서 해방될 수 있을 것으로 기대된다. 향후 음성 인식 기술 기반의 서비스가 인공지능과 결합되게 되면 거의 모든 전자기기들을 우리는 쉽게 사용 및 조종할 수 있게 될 것이다.

Ⅱ. 음성 AI 시장

음성 AI 플랫폼은 처음에는 스마트폰의 음성 인식 가상 비서로 출발했으나 높은 활용성을 보여주지는 못했다. 그러나 스마트 스피커 대중화에 힘입어 영향력이 크게 높여지고 있으며, 스마트 TV, 커넥티드 카 시스템과 같이 기존의 터치 조작이 힘든 단말기에도 적합한 인터페이스로 각광받게 되었다.

< 음성 인식의 대표 기업 및 시장 성장성 > (출처 : 매일 경제)

아마존과 구글은 아마존 에코, 구글 홈과 같이 음성 인식 인공지능의 핵심 단말인 스마트 스피커를 자체 제작해 판매하고 있으며, 다른 기업들의 스마트 스피커에도 자사 플랫폼 탑재를 허용해서 전체적인 음성 인식 시장 생태계 구축과 지배력 향상을 꾀하고 있다.

< 음성 AI 시장의 가치 사슬과 분야별 플레이어 > (출처 : 이데일리)

음성 AI 시장은 매우 다양한 단계가 복합적으로 구성되어 있기 때문에 제휴와 협력이 중요한 분야로 이해해야 한다. 구글 아마존과 같은 회사들은 기술, 플랫폼, 하드웨어, 서비스 전 영역에서 사업을 진행하며 수직 계열화를 통한 시너지 창출에 힘쓰고 있지만 한편으로는 오픈 플랫폼 전략을 구사하며 더 많은 참여자들을 유혹하고 있다.

음성 인식 기술은 특허와 독점권으로 얽혀있는 사업 영역으로 인해서 단기간에 기술력을 확보하기 위해서 M&A가 지속해서 발생되고 있는 분야이기도 하다. 애플의 시리도 같은 이름의 업체인 시리(Siri)를 애플이 인수한 것이다. 이와 유사하게 구글, 아마존도 음성 인식 기술을 보유한 다수의 업체들을 인수해서 기술력을 확보하고 있다.

이런 기반 기술을 바탕으로 플랫폼 기업은 음성 인식 기술을 사용하고 하드웨어를 통해서 서비스를 제공하게 되는 것이다. 이를 고려해볼 때에 음성 인식 기술은 두 가지의 주요한 섹터로 나누어지게 되는데 음성 인식 기술을 보유한 업체와 이를 활용하는 플랫폼 기업이 주도할 것이라는 것이다.

< 음성 인식 주요 기업들 정리표 > (출처 : 담덕의 경영학노트)

먼저 플랫폼 기업으로는 4개 기업(애플, 아마존, 구글, MS)이 있다. 애플은 시리, 아마존은 알렉사, 구글은 어시스턴트, 마이크로 소프트는 코타나가 있다. 이 중에서 가장 먼저 음성 AI플랫폼을 사용한 것은 애플이다. 애플은 2011년 10월 서비스를 시작했다. 애플의 시리는 음성 인식 기술 기업인 뉘앙스 커뮤니케이션의 음성 인식 엔진을 탑재해, 사용자의 음성을 중앙 서버로 전송해 뉘앙스의 기술로 음성을 텍스트로 변환한 후 시리의 인공지능 기술로 분석해 동작을 결정하는 방식으로 작동한다.

아마존 알렉사는 스마트 스피커 에코를 통해서 동작하고 아마존 웹 서비스를 사용해 사용자의 음성을 분석해서 서비스를 제공하는 형태이다. 아마존은 알렉사를 좀 더 보편화된 서비스로 사용할 수 있게끔 알렉사 보이스 서비스를 다른 기기에 탑재할 수 있게끔 해주었다. 이를 활용해서 삼성, LG 뿐 아니라 중국의 다양한 스마트 TV, 서드파티 업체의 스마트 스피커 등이 알렉사 플랫폼을 채택하고 있다.

구글은 애플에 이어서 1년 뒤에 음성 인식 서비스 어시스턴트를 출시했지만 현재는 가장 응답 결과가 뛰어난 AI로 평가받고 있다. 이는 구글이 보유한 거대한 검색 엔진과 함께 방대한 사용자 데이터를 활용한 결과로 평가받고 있다.

MS는 음성 인식 비서 코타나를 출시했는데 윈도 중심의 서비스로만 되어서 스마트폰에서는 작동이 되지 않는 단점이 있다. 그렇지만 최근 뉘앙스를 인수하면서 음성 인식 관련 특허 보유에서 자유로울 수 있다는 장점을 가지게 되었다.

중국의 검색 엔진 기업인 바이두는 두어를 출시했다. 바이두에 따르면 두어의 음성인식 기능은 97%를 넘어설 정도인 데다가 두어 기기가 1억대를 넘어설 정도로 빠르게 증가하고 있어서 향후 기대되는 음성 검색 엔진으로 평가받고 있다.

이처럼 세계적인 빅 테크 기업들은 모두 인공지능과 함께 인공지능을 인간이 효율적으로 사용할 수 있게끔 자체 음성 인식 AI를 가지고 있으며 이를 발전시키기 위해서 최선을 다하고 있는 것이 현재 음성 인식 시장의 동향이라고 생각된다.

Ⅲ. 음성 인식 시장의 미래 성장성

음성인식 시장은 인공지능과 연계해서 사용될 것으로 생각된다. 이로 인해서 인공지능 시장 성장성도 예측이 어려운 만큼 음성 인식 시장 성장성은 정확하게 숫자로 명기할 수는 없을 것 같다. 그렇지만 관련 자료나 신문을 찾아보니 매년 약 17% 이상 성장할 것이라고 하는데 성장성이 높다는 것만 기억해 두도록 하자.

< 글로벌 음성 인식 시장 성장성 > (출처 : 트렌드 포스)

그런데 이런 시장 성장성도 예전의 전망이었을 뿐이고 앞으로는 더 빠르게 성장할 것이라는 의견이 지배적이다. 이유는 크게 두 가지로 구분된다. 첫 번째는 뭐니 뭐니 해도 음성 인식 기술의 발전이 비약적으로 커지면서 상용화가 가능해졌다는 것이다. 그리고 두 번째는 음성 인식이 필요한 분야의 관련 기술까지도 함께 성장했기 때문이다. 각각을 알아보자.

첫 번째, 음성 인식 기술을 사용하기 위해서는 기기의 음성 인식이 자연스러워야 하는데 현재는 자연어 처리 기능이 영어의 경우 거의 99%를 인식하는 수준에 도달되었다. 이는 인간이 자연스럽게 말하는 수준으로도 기계가 이해하고 대화가 가능해진 것을 말해준다. 이를 기반으로 한국어, 스페인어, 중국어 등도 지속해서 개발되고 있고 향후 5년 이내에는 거의 전 세계의 모든 언어가 자연어로 기계와 대화하는 수준으로 발전될 것으로 예상된다고 한다.

기술력 발전의 예상일 뿐이지만 현재의 기술 수준도 자연어로 스마트 스피커를 구동시키는 데에 큰 어려움이 없다고 생각이 든다. 이런 현상이 가속화되면 인공지능과 연계된 기기를 활용해서 우리는 음성으로 명령을 내리고 피드백을 받을 수 있는 수준이 보편화될 것이라고 생각된다.

두 번째는 인공 지능이 활약할 수 있는 주변 기술의 발달이다. 가장 큰 기술을 꼽으라면 전기자동차의 보급이라고 할 수 있겠다. 전기차의 보급으로 인해서 자율주행차까지도 현실화될 것으로 기대가 되는데 자율주행은 음성인식으로 제어될 가능성이 높은 산업이기 때문이다.

손으로 터치 스크린을 몇 번이고 누르고 눌러야 이동할 목적지를 선택하는 것이 아니라 운전수와 대화를 하듯이 목적지를 말하면 자동차가 알아서 운전해주는 시스템이 가능해질 것이다. 이는 전기자동차에 들어가는 부품 수도 줄여주는 효과를 만들어 줄 것이고 나아가 새로운 기술의 발전까지도 기대해 볼 수 있을 것이다.

< 자동차 속 가상 비서 음성 인식 기술 > (출처 : 구글 이미지)

예를 들어 자동차에는 소파만 존재하고 내부에는 아무것도 없는 형태를 상상해 볼 수 있다. 그리고 모든 화면은 디스플레이로 처리되어서 자동차의 실내는 대형 스크린으로 이루어진다. 그리고 그 안에서 인간은 가상현실을 즐길 수도 있는 것이다. 예를 들어 이동하는 공간에서 완벽한 암실을 만들어서 휴식을 취할 수도 있고 영화를 보거나 게임을 하는 등의 오락도 할 수 있게 해 줄 것이다.

아직 음성 인식 기술은 인류에게 소개된 지 얼마 되지 않은 미성숙한 기술이다. 그렇지만 음성은 인류가 최초로 사용한 의사소통 형태가 아닐까 싶다. 음성을 통해서 우리는 의사를 전달하는 것에 익숙했고 이를 기반으로 글자가 만들어지고 종이가 발명되고 기록으로 남겨진 것이다.

이를 고려해본다면 음성인식이야말로 인류가 가장 편리하게 사용하면서 가장 선호하는 의사소통 체계가 되어줄 것이라 생각된다. 이 점을 고려해볼 때에 음성 인식 기술의 발전은 인류의 새로운 산업의 장을 가지고 올 것이라 생각된다.

[ 글을 마치며 ]

스마트폰이 처음 세상에 나올 때만 해도 굳이 인터넷을 들고 다니면서 사용하게 될까라는 생각을 했었다. 그런 생각이 미안하게 될 만큼 요즘은 스마트폰이 없으면 삶이 어려운 지경에 놓이게 되었다. 아침에 일어나면 가장 먼저 스마트폰을 찾게 되고 스마트폰에 자주 쓰는 SNS 혹은 메일을 확인하면서 하루를 시작한다.

그런데 가끔 스마트폰이 어디에 있더라 하면서 찾을 때도 있다. 다행스럽게 누군가의 스마트폰을 사용하면 쉽게 찾을 수 있지만 배터리가 나가거나 혼자 있을 때에는 여간 곤란한 것이 아니다. 이제는 이런 어려움에서도 해방되는 날이 올 것으로 기대가 된다.

< 음성 인식 기술의 진화 관련 이미지 > (출처 : EVPOST)

음성 인식 비서를 사용하게 된다면 분명 몸 어디엔가 스마트폰을 대신해서 사용할 만한 기기를 착용하고 있을 것이다. 그리고 그 기기를 사용해서 메일을 확인하고 인터넷에 접속하고 누군가와 연결도 할 수 있을 것이다.

이런 기술이 가능하게 될 수 있는 기반으로서의 기술이 음성 인식 기술이라고 생각이 든다.

그리고 이제 이 기술이 가능한 시대가 곧 올 것이라는 생각이 든다. 앞으로 음성 인식 관련 기술의 발전이나 업계의 동향에 대해서는 주기적으로 확인해볼 필요가 있음을 깨달았다.

keyword

Brunch Book

이전 12화세상을 읽는 기본 상식, 펫코노미세상을 읽는 기본 상식, 밴드왜건 효과다음 14화