청소년 인문 매거진 <유레카>(2014년 12월 발행)
시리(Siri)는 애플의 음성인식 기반 개인비서 서비스입니다. 아이폰의 홈버튼을 길게 누르면 마이크 표시가 뜨면서 말을 하라고 하죠. 무언가를 묻거나 명령하면 대화하듯이 대답을 하고 그 명령을 수행합니다. 물론 기계가 사람의 말을 완벽하게 알아듣기란 불가능합니다. 하지만 시리는 꽤 정확합니다.
게다가 좋은 대화의 요소인 센스까지 갖추고 있습니다. <뉴욕타임즈>에 실린 시리와 아들의 대화를 살펴볼까요? Gus는 자폐를 겪고 있는 글쓴이의 아들입니다.
Gus: “You’re a really nice computer.” (넌 정말 멋진 컴퓨터야.)
Siri : “It’s nice to be appreciated.” (칭찬해주셔서 감사합니다.)
Gus: “You are always asking if you can help me. Is there anything you want?”
(넌 항상 나를 도와주겠다고 하는데, 네가 필요한 것은 없니?)
Siri : “Thank you, but I have very few wants.” (감사합니다만, 전 필요한 게 별로 없어요.)
Gus: “O.K.! Well, good night!” (알았어! 잘 자!)
Siri : “Ah, it’s 5:06 p.m.” (아, 지금은 오후 5시 6분인걸요.)
Gus: “Oh sorry, I mean, goodbye.” (아, 미안. 내 말은 잘 가라고.)
Siri : “See you later!” (다음에 봐요!)
자폐증을 앓고 있는 환자들은 약간씩 대화장애를 겪고 있습니다. 글쓴이는 시리가 대화장애가 있는 아들의 말까지 모두 대답했다고 합니다. 한 번도 싫증이나 짜증을 내지 않고 말입니다. 사람과 기계의 대화, 그렇지만 전혀 어색함이 없는 이 대화는 현재까지 시리와 같은 음성인식기술이 얼마나 발전했는지, 얼마나 우리 삶에 가까이 와 있는지를 보여주고 있습니다. Gus의 어머니는 말합니다. “기술이 인간을 고립시킨다고 하지만, 다른 면도 있다는 것을 생각해 볼 필요가 있다”고 말입니다.
음성인식기술이란 인간의 음성을 인식해 텍스트로 바꿔주거나 시리처럼 음성을 인식하고 명령을 수행하는 것을 말합니다. 과거에는 군사훈련 등 특수한 용도에만 제한적으로 사용돼 왔지만 최근 스마트폰으로 대표되는 휴대용 컴퓨팅 단말기의 확산과 이를 지원해 줄 인프라의 확충이 맞물려 급속도로 발전하고 있습니다.
음성인식기술은 어떻게 구현되는 걸까요? 간단히 설명하면 다음과 같습니다. 먼저 사용자의 음성을 컴퓨터가 분석하고 그 특징을 추출합니다. 그리고 미리 수집된 음성모델 데이터베이스에서 유사도를 측정해 가장 유사한 것을 문자로 보여주거나 명령어로 변환해 들려줍니다. 중요한 것이 이 음성모델 데이터베이스입니다. 사람마다 목소리와 발음, 억양 등이 다르기 때문에 최대한 많은 사람들로부터 음성 데이터를 수집해야 합니다. 또한 대답을 할 때는 현재 위치와 일정 계획, 주소록 등의 데이터를 활용해 상황 맥락에 맞는 답변을 제시해야 합니다. 데이터베이스에 없으면 검색엔진에 넣어 결과 값을 도출한 후 다시 답변을 하기도 합니다. 그래도 못 알아듣겠으면 다시 말해 달라고 하거나 직접 찾아보라고 합니다.
음성인식기술은 차세대 핵심 기술로 떠오르고 있습니다. 2011년 시리를 출시하며 음성인식기술 시대의 첫 획을 그은 애플은 앞으로 음성인식 서비스를 좀더 본격화할 예정이라고 합니다. 지난 7월 <와이어드>에 따르면 애플이 Siri를 강화하기 위해 자체 전문가들로 이뤄진 음성인식 전문팀을 결성했다고 합니다. 이들은 앞으로 애플에서 나오는 제품들에 탑제되는 음성인식기술을 담당하게 됩니다.
강력한 라이벌인 삼성은 어떨까요? 업계의 뒷소문입니다만, Siri의 핵심기술을 개발한 ‘뉘앙스社’를 삼성전자가 인수할 가능성도 있다고 합니다. 구글도 지난 8월 음성인식으로 일정을 관리해주는 모바일 어플리케이션 ‘이뮤’를 인수했고, 최근 열을 올리고 있는 로봇산업에 이를 적용한다고 합니다.
이처럼 음성인식기술은 모바일 단말뿐 아니라 스마트홈, 스마트카, 웨어러블 등 다양한 영역에서 본격적으로 적용될 핵심가치로 떠오르고 있습니다. 음성인식기술이 앞으로 어떻게 활용될지 알아봅시다. 그 전에 음성인식기술의 특징부터 살펴봅시다.
한국콘텐츠진흥원의 <문화기술 심층리포트>에는 음성인식기술의 특징을 ▲친숙하고 편리하며 ▲이동 및 작업 중에도 상시 입력이 가능하고 ▲화자의 고유 정보를 전달할 수 있으며 ▲입력속도가 빠르다는 장점이 있다고 설명했습니다. 이 같은 특징은 앞으로의 음성인식기술이 어느 분야로 발전될 수 있을지 안내해주는 키워드이기도 합니다.
1 친숙하고 편리함
‘말을 하는 것’. 이것은 인간에게 친숙한 정보 전달 방법입니다. 그렇기 때문에 별도의 학습이나 훈련 없이도 기기를 손쉽게 사용할 수 있습니다. TV 등 가전제품을 이용하는데 음성인식기술이 쓰일 수 있으며, 특히 게임산업 분야에서 환영할 만한 기술입니다. 현실감과 몰입도 향상을 위해 키보드나 마우스 조작에 음성인식기술이 적용될 수 있습니다.
2 상시 입력 가능
손과 발이 자유롭지 못한 상황에서도 정보를 입력할 수 있기 때문에 이동 시에도 기기 사용이 가능하며 안전성과 생산성을 제고할 수 있습니다. 운전 중 말로 목적지를 입력하는 네비게이션은 이미 출시됐습니다. 물류 등을 처리하는 산업현장에서도 음성인식기술은 환영받는 기술입니다.
3 화자의 고유정보 전달
음성에는 정보뿐 아니라 신원, 심리, 건강상태, 언어능력 등도 담겨 있습니다. 또 고유한 특성이 있기 때문에 개인별 서비스 제공이 가능합니다. 보안이나 금융, 의료, 교육분야에 음성인식기술이 적용, 확대될 예정입니다. 러시아 국영은행인 스베르뱅크는 2011년 음성으로 거짓말을 탐지해 보안성을 높인ATM을 시범운영하기도 했습니다.
4 고속입력가능
음성의 입력 속도가 타자에 비해 빠릅니다. 때문에 음성인식기술로 일을 처리하는 속도가 빨라질 수 있고, 실시간으로 정보를 처리할 수 있습니다. 이 장점은 콜센터나 방송, 통·번역에 활용될 수 있습니다.
Gus의 어머니의 말을 다시 떠올려봅니다. 기술은 인간을 고립시키지만 분명 다른 면도 있습니다. 음성인식기술의 발전이 사람 사이의 대화를 축소시킬 것이란 우려도 있지만, ICT 소외계층에게는 꼭 필요한 것이 될 수도 있습니다. 기기조작에 익숙하지 않은 노인이나 장애인 등에게 보다 편리한 서비스와 기능을 제공할 수 있는 매개가 되어줄 수 있기 때문입니다. 일본의 ‘미쓰비시전기’가 좋은 사례입니다. 미쓰비시 전기는 장애인을 위한 음성인식 엘리베이터 시스템인 ‘터치리스 콜(Touchless call)’을 개발했습니다. 사용자가 버튼을 누르는 대신 승강장에서 엘리베이터를 호출하고, 엘리베이터에 탑승하면 원하는 층을 음성으로 지정할 수 있습니다.
우리는 기술의 발전으로 불가능하리라 여겼던 것을 쉽게 만드는 것을 여러번 목격했습니다. 가장 최근의 예로는 3D프린터를 꼽을 수 있겠습니다. 3D프린팅 기술로 값비싼 개인 의료기기가 매우 저렴해졌으니까요. 어쩌면 기술의 다른 면은 배려가 아닐까 생각합니다. 음성인식기술의 발전이 가져다 줄 미래를 기대합니다.