모두의 인공지능 기초
II장에서는 센서를 처음에 다루고, 시각에 해당되는 컴퓨터 비전을 지난 글에서 살펴보았습니다. 이번 시간에는 귀에 해당하는 음성 인식, 그리고 언어를 처리하는 자연어 처리에 대해서 다룰 예정입니다. 또한 사람처럼 자연스럽게 이야기해주는 음성 합성에 대해서도 살펴볼 예정입니다.
음성 인식은 어느새 우리 생활과 가까워진 기술입니다. 대표적인 예시로 인공지능 스피커를 살펴볼 수 있는데요, SK 텔레콤의 CF 영상 하나만 살펴볼까요?
위의 광고를 보면서 음성 인식 기술은
- 사람과 교감할 수 있는 기술
- 할머니들도 쉽게 사용할만큼 문턱이 낮은, 모두를 위한 기술
- 일상과 늘 함께하는 기술
이라는 것을 살펴볼 수 있습니다. 마지막 흥겨운 음악, 각 할머니들의 삶의 모습이 보이는 영상이죠. ^^
1. 음성 인식 : 소리를 데이터, 이야기를 문장으로
10대 청소년들은 음성 인식 기능을 사실 많이 사용하진 않습니다. 말하는 것보다는 직접 손으로 쓰는 것이 훨씬 편한 세대니까요. 수업 시간에 물어봐도 한 학급에 2~3명 정도가 손을 들 뿐, 대부분은 (저도 마찬가지) 직접 텍스트를 입력하는 것이 더 편하죠.
하지만 구글은 2017년을 기준으로 이미 모바일 검색의 20%는 음성 인식을 통해 이루어졌다고 밝혔습니다. 2020년 온라인 검색의 비율을 보면 음성 검색 비율이 50%에 달합니다. 그만큼 음성 인식의 활용도는 점점 커지고 있습니다.
음성 인식은 단순히 사람의 말을 알아듣는 것으로 그치지 않습니다. 음성 인식은 아기의 울음소리, 음악의 장르, 사람의 생활에서 발생되는 소리, 동물의 소리 등 음성 데이터를 수집하고 처리할 수 있는 기술입니다. 예전 첫째가 태어났을 때, 아기가 울기 시작하면 도대체 왜 우는 건지, 아파서 그러는 건지 몰라서 발을 동동 굴렀던 적이 많았는데 이제는 아기가 우는 소리를 딥러닝을 활용해서 분석을 하는 기업도 나타났습니다.
그 외에도 독거 노인, 1인 가구 등에서 기침소리나 재채기 소리, 코 푸는 소리 등을 감지하여 건강 상태를 파악할 수도 있습니다.
2018년 구글의 AI 총괄 시니어 펠로우였던 제프 딘은 국내 '세바시' 프로그램에 출연하여 고래 연구사례를 소개했습니다. 고래는 바다 속에서 소리를 통해 소통을 하기 때문에 해저에 마이크를 설치해 고래의 소리를 녹음한 데이터로 연구를 진행합니다. 그런데 사람이 하나하나 음성 데이터를 검증하는 것은 거의 불가능하죠. 마이크 하나당 수천시간이 녹음되어있는데, 많은 마이크로 녹음된 데이터를 사람이 하나하나 분석하려면 수백년이 걸릴지도 모릅니다. 다행히 딥러닝을 활용한 음성 인식 기술로 음성 데이터를 처리한 결과 98%의 정확도로 고래가 어디에 있는지 찾아낼 수 있었습니다.
이러한 음성 인식은 어떤 과정으로 이루어질까요? 음성 인식은 소리를 글자로 비꾸는 것이 아니라, 소리를 문장으로 바꾸는 기술입니다. 다음의 과정을 통해 소리는 문장으로 바뀌어집니다.
① 음성 신호 : 사람의 소리를 마이크가 받아 전기적 신호로 바뀌는 과정이 필요합니다.
② 부호화 : 신호로 바뀌면 1초에 약 50~60번 정도 측정해서 디지털 신호로 변환합니다.
③ 특징 추출 : 이 과정에서는 각각의 소리에서 음소를 추출해 어떤 글자에 해당하는지 파악합니다.
④ 패턴 비교 : 음소의 경우 각각의 소리를 글자로 바꾸기 때문에 '문장'이 되지는 않습니다. 따라서 학습 데이터를 활용해 어떤 문장에 해당하는지 파악하는 과정이 필요합니다. 아무리 소리가 비슷하다고 하더라도 문장에 적절하지 않은 경우가 있습니다. 따라서 학습에 활용한 데이터를 검증해 가장 유의미한 문장으로 변환합니다.
⑤ 인식 : 드디어 소리가 문장 텍스트로 변환이 완료되었습니다.
위의 과정을 좀 더 자세하게 설명한 영상을 위의 링크로 한 번 보시면 도움이 됩니다. :)
음성 인식 기능을 통해 '소리'를 '문장'으로 바꾸는 것까지 구현이 가능합니다. 그러나 각 문장이 어떤 의미를 지니고 있는지 파악하는 것 또한 중요하죠. 예를 들어 위의 슬라이드에서 밑에 인용한 말을 보면
- 발라드 노래 틀어주겠니?
- 발라드 노래 좀
- 발라드 음악 재생해줘
라는 문장이 있다고 해보죠. 그랬을 때 이 음성을 문장인 텍스트 정보로 바꾸는 것까지는 음성 인식기술인데, 위의 3가지 내용이 모두 같은 의미입니다. 따라서 인공지능 스피커는 같은 의미로 파악하는 과정이 필요합니다.
이 때 필요한 것이 '자연어 처리' 기술입니다. '자연어'라고 하는 것은 사람이 일상적으로 사용하는 언어를 의미합니다. 이 자연어가 '어떤 의미를 지니는지' 맥락이 파악하는 일을 '자연어 처리'라고 합니다. 자연어 처리 과정에서 각 문장의 핵심 정보를 추출해 각 문장이 가진 의미를 파악할 수 있습니다.
(위대한 수업 그레이트 마인즈. 요슈아 벤지오 AI는 어떻게 생각하는가? 'AI 창작하는 기계')
이 과정을 사실 예전에는 잘 몰랐는데, 최근(2022년 3월) EBS 위대한 수업에 '요슈아 벤지오' 교수님이 나오셔서 인공지능에 대한 수업을 진행하신 영상을 보게 되었습니다. 그 중 '4강 - 창작하는 기계' 내용에서 '집중력 혁명'에 해당하는 내용에서 주요 정보를 얻을 수 있었습니다.
기계 번역에서 사람들이 문장을 들을 때 주요 몇 단어에 집중해서 듣는 특성을 주목했습니다. 이 때부터 인공지능의 문장의 문맥을 파악하는 능력이 많이 향상되었죠. 번역을 비롯해 음성 처리에서 많은 개선이 일어났고, AI 스피커 및 번역 등의 서비스가 많이 보급되기 시작했습니다.
정리를 한 번 하자면 음성 인식 기술은 음성을 문장의 텍스트(컴퓨터가 다루는)로 바꾸는 기술입니다. 텍스트에서 맥락을 추출하는 자연어 처리 기술을 통해 정보를 추출합니다. 그 처리된 정보를 다시 사람에게 되돌려주는 것도 중요합니다.
먼저 정보를 글로 표현해주는 서비스의 예시로 '자막 기능'과 '번역'을 들 수 있습니다. 음성을 통해 인식한 내용을 실시간으로 자막으로 보여줄 수 있고, 입력한 문장들을 거의 실시간으로 번역처리를 해줍니다. (이 과정에서 딥러닝의 RNN -순환 신경망-기술이 활용됩니다.)
반면 다시 소리로 전달을 해주려면 또 다른 기술이 필요합니다. 사람은 말을 할 때 '감정'이라는 것이 중요하고, 그 감정에 따라 톤이 달라집니다. 따라서 텍스트 정보만 만들어지더라도 사람들이 자연스럽게 받아들여질 수 있도록 적절하게 전달하는 기술이 또 필요합니다. 이전에는 어색하게 글을 읽는 것을 보고 '컴퓨터가 읽냐'라고 표현했었는데 그만큼 음성 합성 기술은 어려운 분야였습니다.
반면 딥러닝이 사람의 목소리 인식을 통해 감정을 분석하고 특징을 파악하면서 TTS 기능이 대폭 향상되었습니다. 아무리 제가 글로 설명하는 것보다 직접 듣는 것이 좋으니.. 위의 영상을 통해 들으시는게 더 좋을 것 같아요. :)
사람의 지문처럼 목소리도 개인의 고유한 특성입니다. 이를 '성문'이라고 하는데, 성문을 활용하면 사람을 인식하는데 유용하게 사용할 수 있습니다. 예를 들면
- 핸드폰 혹은 디지털 도어락의 잠금 해제
- 보이스 피싱 여부를 판별하거나 경보 메시지
등에 활용할 수 있습니다. 이러한 기술이 단순히 편리함을 위한 내용 같지만 장애인, 노인 등과 같이 기기의 사용이 어려운 분들에게는 큰 대안이 될 수 있습니다. 이전에 배웠던 컴퓨터 비전의 내용과 음성 인식을 활용하면 더욱 정확하게 개인 인식이 가능해집니다.
인공지능 스피커, 번역, 음성 명령 문서 편집기 등 뿐만 아니라 '음성 ARS' 등도 음성 인식 기능을 활용하고 있는 예시로 들 수 있겠습니다.
요즘 통신사에서 인공지능 비서를 활용하는 CF가 많이 등장합니다. 대표적으로 KT의 디지코 광고인데요, 아래 영상을 한 번 살펴볼까요?
1인 상점의 경우 혼자 다양한 역할을 해야하는데, 전화를 받아주고 예약 접수도 조정하고 받아주니 큰 도움이 되죠. 사실 교사들도 이런 기능이 있으면 좋겠습니다. :)
음성 안에는 사람들의 다양한 상태가 녹아있습니다. 사람들의 감정, 언어 스타일, 사회적인 경향성 등이 다양하게 묻어나오는데, 인공지능을 활용하면 이러한 특성을 파악할 수 있죠. 반대로 생각하면 이러한 측정을 통해 감정, 경향성 등을 담아 언어로 표현할 수도 있습니다.
이런 기능을 활용해 면접, 상담 등의 경우에 사용할 수 있고, 범인들의 심리를 파악하는 프로파일링에도 활용할 수 있습니다. 실제 소치 올림픽에서 테러를 파악하는데 활용되기도 했다고 해요. 영화 마이너리티 리포트에서 범인을 예측하는 일이 실제로 조금씩 구현되고 있는 것 같아요. SBS 프로그램에 'AI vs 인간'에서 권일용 프로파일러와 심리인식 인공지능의 대결이 아주 재미있게 진행되었습니다. :)
최근 음성 인식을 잘 활용하고 있는 예시로 병원을 들 수 있습니다. 대학병원에서 의대 교수님이 회진을 돌며 환자의 상태를 살펴보고 기록을 해야할 때가 있어요. 국내 음성 인식 업체인 셀바스 AI에서는 '셀비 메디컬'이라는 의료 차트를 음성 인식 기능을 통해 기록을 합니다. 이 서비스는 쓰면 쓸수록 유저의 음성을 학습해 정확한 기록을 해줍니다. 실제 사례 영상을 한 번 볼까요?
하지만 음성 인식 서비스에서도 한계가 있고 조심해야 할 부분들이 있죠. 그 내용들은 다음 글에서 살펴보도록 하겠습니다.