4-04 자동차도 사물인터넷 디바이스로서 우리말을 듣고 계속 학습한다.
컴퓨터에게 내가 무엇을 원하는지 전달하는 방법은 꾸준히 진화해 왔다. 키보드를 통해 명령어를 집어넣어야 하던 시대에서 마우스로 화면의 아이콘을 클릭하는 형태를 거쳐 스마트폰에서는 부가 장치 없이 터치로 조작이 간단해졌다. 그리고 이제는 고도화된 음성 인식 인터페이스가 주목을 받고 있다. 아이폰의 '시리'나 구글의 '빅스비'같은 음성 인식 AI 비서들이 대표적인 예다.
안전을 위해 전방을 주시해야 하고, 되도록이면 핸들에서 손을 떼지 말아야 하는 자동차에서도 음성 인식을 이용한 인터페이스 시스템이 활발히 개발 중이다. 터치나 버튼을 통한 직접 입력 방식과는 달리 음성 인식은 자연어 인식을 통해 사용자의 명령을 이해할 수 있어야 한다. 주변의 들리는 소리로부터 사람의 말소리를 구분하고 인식한 음성을 명령어로 정확하게 변환시켜야 하고 인식된 명령어를 해당 기능과 서비스에 연결시키는 작업도 필요하다.
우리 귀에 들리는 여러 소리들 중에 사람의 목소리를 추출하기 위해서는 우선 주파수 대역을 뽑아내야 한다. 여자는 200~250Hz, 남자는 100~150Hz 기준으로 추출하고 잡음을 제거해서 음성에 해당하는 정보만 정리한다. 그런 다음 녹음된 음성을 초당 수십 회 단위로 쪼개고 각 파형의 특징을 수치화하여 분석하기 쉽게 변환한 후에 각 데이터의 변화가 어떤 음소와 해당하는지 매칭시키는 작업을 진행한다. 마치 카메라 영상에서 사물을 인식하는 작업과 비슷한 과정이다.
이렇게 대략적인 소리를 글로 변환하는 작업을 마치고 나면, 자주 사용하는 문장을 학습해 둔 언어 모델을 기반으로 음성의 인식 결과가 문맥에 맞는 단어로 매칭될 수 있도록 통계적으로 확률이 높은 결과를 구한다. 자동차도 사물인터넷처럼 네트워크에 연결된 디바이스로서 사용자의 목소리에 대한 학습을 계속한다. 익숙한 목소리가 자주 하는 명령은 더 잘 이해하고 수행한다. 차 안에 내 말을 잘 알아듣는 비서가 생기는 셈이다.