brunch

You can make anything
by writing

C.S.Lewis

by Grandmer May 18. 2021

뉘앙스, 인간과 기계 사이의 대화가 가능해졌습니다.


[ 글을 시작하기 전에 ]


산업혁명이란 급격한 경제 성장을 동반했고 그 흐름을 읽어낸 기업들이 승자가 되어서 새로운 시대를 열어갔다. 산업혁명의 단계를 보게 되면 1차 산업혁명은 18세기에 시작되고 진행된 증기기관 기반의 기계화 혁명이다. 그래서 기계와 관련된 산업들이 주류를 이뤘고 기계화가 꽃을 피운 시기였다. 이 기계화 혁명은 19세기까지도 이어졌다. 

< 산업혁명 설명 > (출처 : IRS 홈페이지)

2차 산업혁명은 19세기에서 20세기 초까지의 시간이었고 전기 에너지의 기반이었다. 증기 에너지가 전기에너지로의 변화가 이루어졌고 전기에너지를 다룰 줄 아는 산업이 성장한 시간이다. 3차 산업혁명은 컴퓨터와 인터넷 기반으로 이루어진 산업 혁명이고 컴퓨터 공학이 꽃을 피운 시기였다. 


이제 바야흐로 4차 산업혁명이 시작되었는데 그 핵심은 정보이다. 그리고 그 정보를 단순히 모으는 것에서 넘어서서 정보를 다양한 분야와 연결하고 학습하고 확대해나가는 것이 4차 산업혁명의 핵심이라고 할 수 있는 것이다. 


그러면 4차 산업혁명에서는 데이터를 모으는 것도 중요하지만 효율적으로 활용하는 것이 더 중요하게 된다. 이를 위한 기술이 인공지능이다. 인공지능은 24시간 동안 잠을 자지도 않고 감정적으로 기복이 생기지도 않으며 꾸준한 퍼포먼스를 만들어낸다. 그리고 머신러닝을 통해서 인공지능이 스스로 학습해서 다음 단계로 나아가기도 하고 딥러닝을 통해서 복합적인 사고까지 가능한 수준을 꿈꾸고 있다. 


덕분에 IT기업이고 대기업이라면 인공지능 하나쯤은 다들 가지고 있는데 애플의 쉬리, 아마존의 알렉사, 구글의 알파코, 마이크로소프트의 코타나가 대표적이다. 그런데 최근 마이크로소프트가 뉘앙스라는 기업을 인수했다는 소식이 들렸다. 

< 뉘앙스 인수 관련 기사 >  (출처 : 머니 투데이) 

뉘앙스의 가치는 160억 달러(18조)로 평가되었고 오히려 이 인수 가격이 비싸지 않았다는 평가가 나오고 있다. 뉘앙스를 통해서 마이크로 소프트가 원하는 것이 무엇인지 어떤 연유로 이렇게 비싼 가격을 지불했는지 그럼에도 불구하고 사람들의 평가는 저렴했다고 하는 것인지 알아볼 필요가 있어 보였다. 그러면 뉘앙스 커뮤니케이션즈라는 회사에 대해서 알아보도록 하자. 




 Ⅰ. 뉘앙스의 탄생


뉘앙스 커뮤니케이션즈 ( Nuance Communications Inc.)는 미국의 음성 인식 엔진 개발 회사이다. 애플의 음성인식 엔진인 시리를 공급한 것으로 유명하다. 1992년에 설립되었으며 본사는 미국 매사추세츠 주 벌링턴에 있다. 

< 음성인식 기술 개발 선구자 : 레이몬드 커즈와일 > (출처 : 구글 이미지)

뉘앙스 커뮤니케이션즈의 역사를 알기 위해서는 1974년 커즈와일 컴퓨터 제조회사와 (Kurzweil Computer Products, inc.) 설립자인 레이몬드 커즈와일을 알아야 할 필요가 있다. 커즈와일 컴퓨터 제조회사는 일반 글꼴로 작성된 텍스트를 음성으로 인식 가능하게 할 수 있는 컴퓨터 프로그램인 글꼴 광학 문자 인식 시스템을 개발했다. 레이몬드 커즈와일은 1948년 생으로 매사추세츠 공과대학을 졸업하고 광학 문자인식, 텍스트 음성 변환, 음성 인식 기술과 관련한 분야를 연구한 발명가이자 기업가이다. 


그는 텍스트를 음성으로 변환시키는 기술을 활용한 프로그램의 선구자로 문자를 빛을 통해서 인식하고 이를 디지털로 변환, 음성으로 다시 출력하는 시스템을 만들어낸 사람으로 유명하다. 이 기술을 발명시킨 것을 인정받아 백악관 시상식에서 클린턴 대통령으로부터 1999년 미국 기술 혁신 국가 메달을 수상했고 2001년에는 MIT 졸업생에는 주는 상을 받았으며 미국을 만든 혁명가로 불릴 정도로 유명한 사람이다. 2012년부터는 구글에서 근무하고 있다. 


그런 레이몬드 커즈와일이 설립한 커즈와일 컴퓨터 회사는 1980년에 제록스에 매각이 되게 되고 제록스 (Xerox)는 이 회사의 기술을 활용하고 발전시키기 위해서 XIS (Xerox Imaging Systems)와 Scansoft와 결합시키기에 이른다. 

< ScanSoft 의 제품 Paperport 11 이미지 > (출처 : 구글 이미지)

그리고 Scansoft는 컴퓨터 하드웨어 업체인 Visioneer. Inc라는 회사가 소프트웨어 관련으로 사업을 확장하기 위해서 제록스에서 Scansoft를 인수하면서 텍스트 인식 기술의 Scansoft는 Visioneer로 합병이 되게 되지만 Visioneer가 회사 이름을 Scansoft로 변경하면서 텍스트 인식 관련 소프트웨어 개발 회사로 변모하고 성장하게 된다. 


이후 Scansoft가 캘리포니아 멘로 파크에 있는 음성인식 회사인 뉘앙스(Nuance)를 인수하면서 2005년 Nuance 커뮤니케이션스가 설립되게 되었다. 


뉘앙스 커뮤니케이션즈의 히스토리를 요약해 보면 텍스트를 인식할 수 있는 기술을 만든 레이몬드 커즈와일이라는 공학자가 세운 회사가 발전되어 음성인식 기술을 가진 회사와 결합하면서 음성인식과 이를 컴퓨터 언어로 전환할 수 있는 기술을 가진 업체로 성장할 수 있게 된 것이다. 그리고 그 회사가 뉘앙스 커뮤니케이션즈인 것이다. 




 Ⅱ. 뉘앙스의 기술력


뉘앙스의 기술력은 세계 1위로 평가받고 있으며 현재 구글과 삼성에 음성 검색 시스템을 공급하고 있다. 스마트폰 사용자들이 음성으로 검색 가능한 수준의 기술을 제공하고 있으며 뉘앙스의 제품은 음성인식을 넘어서 자연어를 인식해서 문장을 텍스트로 전환할 수 있는 수준까지 다다르고 있다. 


스마트폰이나 태블릿의 애플리케이션을 통해서 말을 하면 그것이 텍스트로 변환되어서 저장되는 것을 경험한 사람들이 있을 텐데 이것이 음성인식 기술이며 텍스트로 전환되는 것이라고 생각하면 된다. 참고로 자연어를 90% 이상 인식하는 것으로 평가받고 있는데 자연어라는 우리가 일상에서 사용하는 언어로 사람들이 하는 말을 거의 대부분 텍스트로 표기가 가능하다는 것을 말한다.


뉘앙스의 기술력을 알기 전에 음성 인식이라는 것에 대해서 먼저 간략히 알아보면 음성 인식 기술은 1950년대에 시험적 목적으로 최초로 개발되었다. 이후 1960년대 IBM에서 16개의 단어 인식이 가능하고 사칙연산 수준의 간단한 계산 정도가 가능한 음성 인식이 개발되었다. 

< 드래곤 딕테이트 제품 이미지 > (출처 : 구글 이미지)

1980년대 초에는 PC에 음성 인식이 도입되기 시작하였는데 대표적인 회사로는 드래곤 시스템즈라는 회사가 있었다. 지금은 뉘앙스에 인수가 되어있다. 드래곤 시스템즈는 도스(DOS)용 프로그램인 ‘드래곤 딕테이트(Dragon Dictate)’를 만들었고 초기에는 낱말 단위의 인식 및 표현이 가능한 수준이었다. 이때까지는 음성인식의 중요성이 대두되는 시기는 아니었다. 

< 아이폰 Siri 홍보 이미지 > (출처 : 구글 이미지)

그러나 스마트폰이 등장하면서 모바일 기기에서 인터넷의 사용이 증가하고 기술이 발달됨으로 인해서 점차 음성 인식 검색의 중요성이 대두되고 대표적으로 아이폰에 시리(Siri)와 같은 음성 처리 기능이 탑재되기 시작하면서 음성인식 기술의 중요성과 편리성이 알려지기 시작했다. 


뉘앙스 커뮤니케이션즈는 이런 음성 인식 엔진 개발의 대표적인 회사이면서 글로벌 선두 기업으로 2018년 기준 글로벌 음성인식 시장 점유율 약 60%로 전 세계 70여 개의 언어들을 지원하고 있다. 대표적으로 애플의 아이폰 시리(Siri)에 음성 인식 엔진을 공급하고, 삼성 갤럭시의 음성인식 솔루션 S 보이스, 구글 음성 인식 서비스에 뉘앙스의 기술이 적용되어 있다. 


영어 인식률의 경우 99%에 달할 정도로 음성 인식 관련 기술 대부분을 보유하고 있으며, 1,000개가 넘는 특허를 보유하고 있어서 뉘앙스의 특허를 피하고서 음성인식 기술을 구현하는 것을 불가능하다고 평가하고 있다. 단, 구글은 음성인식을 자체 개발 중에 있는데 이를 이끌고 있는 사람도 뉘앙스의 창립 멤버 중 하나인 레이몬드 커즈와일이라는 것을 잊지 말자. 




Ⅲ. 뉘앙스와 미래 성장성


뉘앙스는 현재 마이크로소프트에 인수가 된 상태이다. 뉘앙스를 이렇게 큰돈을 주고 MS가 구입한 이유가 무엇일까? 이는 MS가 가지고 있는 인공지능 비서 코타나를 더 강력한 플랫폼으로 만드는 것과 뉘앙스의 기술력을 활용해 헬스케어 산업 분야를 리딩(leading) 하기 위한 것으로 예상된다. 

< MS 인공비서 코타나 > (출처 : 구글 이미지)

첫 번째인 MS의 인공비서 코타나는 애플의 쉬리나 아마존의 알렉사에 비해서 아직 파급력이 그렇게 크거나 기술적인 우위에 있다고 생각이 들지 않는다. 여기에 애플은 음성인식 기술의 개발에 박차를 가하기 위해서 뉘앙스 연구원들을 영입하기도 했고 구글은 공동창업자를 데리고 간 상황이다. 


이렇게 음성인식 기술에 사활을 걸고 모든 기업들이 노력을 하자 MS는 아예 뉘앙스를 인수한 것으로 보인다. 원천 특허 보유 자회사를 가짐으로써 코타나와 MS가 운영하는 클라우드 서비스와 윈도까지 모두 특허권 침해와 로열티로부터 자유롭게 사업 영역을 확장할 수 있게 된 것이라 생각한다. 어찌 보면 몇 년치의 특허 비용을 한 번에 지불하고 향후에는 직접 개발해서 특허로 수입을 창출해 낼지도 모르겠다. 

< MS 헬스케어 클라우드 서비스 이미지 > (출처 : 인공지능 신문)

두 번째 헬스케어 부문은 MS 외에도 모든 글로벌 IT기업들이 관심을 가지고 육성해나가고 있는 분야이다. 헬스케어에서 1차적으로는 환자들의 증상을 설명하는 것이나 의료기관에서 치료하는 녹취 등의 데이터를 수입해서 음성인식을 통해 해결책까지 제공하는 기술을 구현하고자 하는 것이 각자의 목표이다. 


이 기술의 근간에는 음성인식 기술과 이를 다시 텍스트로 전환 혹은 텍스트를 인식 이를 음성으로 전화하는 기술이 필요하게 되는데 이의 선두 주자인 뉘앙스가 MS로 가게 됨으로써 다양한 정보를 활용한 헬스케어 분야에서 두각을 나타낼 수 있게 되지 않을까 기대하는 것으로 보인다. 


뉘앙스의 음성인식 기술의 활용성이 몇몇 분야로 한정되고 있지만 향후에는 자율 주행 자동차나 대화형 로봇, 편의성 확대를 위한 무인 가이드 등에도 활용이 가능한 만큼 거의 모든 분야에서 인공지능 비서로서의 활용이 기대된다. 

 < 뉘앙스의 자동차 부문 세렌스 > (출처 : 글로벌 오토 뉴스)

실제로 차량용 음성 인식 시장은 뉘앙스에서 분사한 세렌스라는 기업이 독점한 체제로 글로벌 자동차 업계 대부분이 뉘앙스의 자회사 세렌스의 음성인식 엔진과 플랫폼을 사용하고 있다. 대표적으로 차량용 음성 인식 시스템인 드래곤 드라이브(Dragon Drive)는 현재 아우디, BMW, 다임러, 포드, 지리, GM, SAIC, 도요타 등 전 세계 거의 모든 주요 자동차 제조사의 2억 8,000만 대 이상 자동차에 70개 이상의 언어로 음성 인식 솔루션을 제공하고 있다. 


이처럼 음성인식 기술은 4차 산업혁명의 주요 기술이 될 것으로 예상한다. 그리고 그 활용성은 지금 우리가 아는 만큼만 상상이 가능한데 분명 이후에는 더 많은 분야에서 활용이 가능하지 않을까 기대해본다.  



[ 글을 마치며 ]


처음 아이폰의 광고에서 시리가 나왔을 때만 해도 많은 이들이 웃었다. 시리를 활용해서 얼마나 많은 사람들이 스마트폰을 사용하겠는가 하는 것이다. 그렇지만 지금은 인공지능 인식이 우리 실생활에 들어와 있다. 대표적인 것인 인공지능 스피커이다. 인공지능 스피커를 활용해서 주문하고 집안의 전기 등을 조절하는 것도 상상 속에서만 이루어지는 것이 아닌 현실에서 가능한 기술이 되었다. 

< 인공지능 스피커 예시 이미지 > (출처 : 조선비즈)

음성인식 기술이 중요해질 것이라는 것은 공학을 전공하지 않아도 쉽게 상상이 가능한 분야이다. 그렇지만 이 기술이 실제로 구현되기까지의 역사를 거슬러 올라가 보면 거의 반 세기에 가까운 시간을 준비한 사람들이 이었다. 


이들이 처음에 시작한 의도나 목적은 인간이 해야 할 일을 기계가 대신하고 그것을 통해서 인류가 더 많은 서비스나 정보를 얻게 된다면 한 단계 더 발전할 것이라는 기대감에서 만들어낸 것이 아닌가 싶다. 그리고 그 기술력이 다양한 다른 기술과 융복합되고 결합되고 자본력을 만나면서 상용화되고 꽃을 피우기 일보직전에 있는 것이다. 


이런 기술을 사용하는 사용자적인 입장에서는 매우 행복하고 즐거운 일이다. 그렇지만 이 기술을 내가 발명했더라면 혹은 소유하고 있다라면 얼마나 대단한 일이 될까? 기업들은 이런 관점에서 기술을 바라보고 미래를 준비하고 있는 것이다. 자율주행차의 본격적인 주행을 앞두고 점차 초시계는 흘러가고 있다. 이런 촉박한 와중에 음성인식은 특허료를 지불하고 기존의 서비스를 활용하는 것이 개발 단축에 효과적일 것이다. 그렇기 때문에 기업들은 자체 개발보다는 이런 기술은 외주를 통해서 소싱하는 것이 현명한 판단이라고 생각하겠지만 그 안에서는 우리가 이런 기술력을 가지면 좋았을 것을 하는 아쉬움이 남을 것이다. 


미래를 선도하는 것은 하루아침에 이루어지는 것이 아님을 깨달았다. 오늘은 별거 아닌 기술일지라도 시간이 지나고 나서는 대단한 발견이 될 수 있는 기술이 많다. 그런 기술들을 사전에 준비하고 투자하는 것이 미래의 뉘앙스 커뮤니케이션이 되는 길이라는 생각이 든다. 일단은 마이크로소프트가 뉘앙스를 활용한 새로운 비즈니스 확장이 어떻게 될지 지켜보도록 해야겠다. 기업을 정리해 나가면서 많은 생각과 고찰을 하면서 또 많이 배우게 된다. 

작가의 이전글 네슬레, 스위스 태생의 세계 1위의 식품회사
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari