[AI 기초] II-3. 음성 인식과 언어 이해-2

모두의 인공지능 기초

Mar 22. 2023

컴퓨터 비전과 음성 인식이 만난다면?

지난 시간에는 음성 인식, 자연어 처리, 음성 합성 기술에 대해서 살펴봤습니다. 소리를 문장으로 바꾸는 음성 인식, 문장에서 의미를 파악하는 자연어 처리, 인공지능이 의미한 부분을 사람의 목소리로 감정과 뉘앙스까지 담아서 전달하는 음성 합성이 있었죠?

우리가 앞에서 배웠던 이미지 인식 기능을 통해 영상이나 사진 등에서 나타나는 특징을 추출할 수 있습니다. 마찬가지로 음성 인식에서도 사람의 목소리의 억양, 습관, 음색 등을 추출할 수 있습니다. 딥러닝을 활용한 이 두가지가 만나면 진짜 같은 합성 영상을 만들어낼 수 있습니다. (물론 여기에는 훨씬 복잡한 알고리즘이 적용되겠죠? GAN 등과 같은 기술을 비롯 여러가지가 있습니다.) 뉴스에서 한 번 만나볼까요?

https://youtu.be/HpJFpv38klE

너무 똑같죠? 여기에는 얼마전 포스킹을 했던 GAN(생성적 적대 신경망) 이라고 하는 기술이 활용됩니다. 이 방법은 가짜를 계속 upgrade, 동시에 분별하는.능혁도 계석 upgrade해서 결국 가짜를 진짜처럼 만드는 방법이라고 요약할 수 있습니다.

https://youtu.be/D6Aj2Bn-WBI

음성 인식 기술의 한계

위의 사진을 보면 어린이 두명이 귓속말로 뭔가 키득키득 이야기를 나누고 있네요. :) 그 반의 선생님이 무슨 이야기를 나누는지 가까이 가봤지만 이해할 수가 없었어요! 왜냐면..

- 일단 귓속말이라 잘 안 들려서.

- 주변이 너무 소란스러워서.

- 처음 들어보는 생소한 단어가 쏟아져서.

- 자꾸 말을 흐리고 생략이 많아서. (앞의 맥락과 이어지는..)

- 비문이 많아서. 주어 서술어 호응이 잘 안되는 건 기본. (그런데 이해하는 너희들은 도대체..)

- 너무 말이 길고 장황해서.

- 나름 전문용어들이 쏟아져서. (유튜브 용어인가?)

- 알아듣긴 했는데 어떤 용도로 쓴 말인지 몰라서.

등등의 이유로 이해가 어려웠습니다..; 위의 이야기는 음성 인식에서 만나는 여러 난관들이 다 포함되어있죠.

그런데 사람이 같이 지내다보면 무슨 말인지 잘 알아듣게 되죠. 마치 처음 전학을 가서 이해가 잘 안되거나 말이 전혀 통하지 않는 나라로 이민을 가서 첫 등교했을 때의 생소함 같은 거라고 할까요? 그런데 오래 있다보면 서로 공유할 수 있는 내용들이 많아져서 결국 조금씩 의미가 통하게 됩니다. 결국 학습의 문제라고 할 수 있겠죠.

실제로 신조어를 학습시킨 GPT-3는 맥락상 척척척 번역을 해냅니다. 아래 영상 한 번 볼까요?

https://youtu.be/gTOoreUQ6Cs

'핵노잼' 이라던가 '갑분싸' 같은 용어를 단번에 알아듣기는 어렵지만 이야기를 나누다보면 맥락을 파악하게 됩니다. 결국 음성 인식의 문제는 '학습의 유무, 데이터의 확보'에 달려있다는 것을 알 수 있죠.

한 교과서에 실려있는 음성 인식 기술의 한계인데.. 위의 내용들은 아마 음성 인식 인공지능에서 해결되었거나 곧 해결될 문제라고 생각하는 것이 좋지 않을까 싶습니다.

문제는 기술이 아닌 컨텐츠

그런데 문제는 기술이 아니라 기술을 어디에 활용하느냐입니다. 혹자는 사막에서도 난로를 팔 수 있고, 혹자는 북극에서도 냉면을 팔 수 있다는 말이 있는데.. 결국 기술을 개발하더라도 어떻게 활용되느냐에 따라 계속 살아남을 수도 있고 없어질 수도 있죠.

https://youtu.be/seuTclLUI_w

컨텐츠가 발전하지 못하는 대표적인 예시가 인공지능 스피커입니다. 생각보다 인공지능 스피커의 소비가 시들합니다. 저희 집만 하더라도 몇년 전 통신 가입 때 클로바 AI 스피커를 같이 받았어요. 초반엔 신기해서 막 이거저거 물어보고, 불도 끄게 하고, 노래도 좀 들었는데.. 노래는 1분 무료듣기만 가능하고, 인식률도 생각보다 떨어질 때가 많아서 결국 서비스를 연장하지 않았거든요.

어떻게 쓰느냐가 더욱 중요할 수 있죠. 그런 예시 중의 하나로 인공지능 인형 '효돌이'의 영상을 한 번 보겠습니다.

https://youtu.be/vMCmA4whyP4

효돌이는 인공지능 스피커가 인형 속에 들어있는 형태입니다. 노인들의 이야기를 듣고, "양손 꼭 잡아주세요~"라는 요청을 말하고는 실제로 잡아주시는지 양손의 센서로 파악하기도 합니다. 인형의 크기도 딱 어린 손주 만해서 안고 자거나 토닥이기 좋죠. 효돌이는 틈틈히 잘 모르는 것을 할아버지, 할머니에게 물어보기도 합니다. 그냥 도와주는 존재라기보다는 적절한 도움을 요청함으로써 노인들이 자신에게 필요한 존재라는 생각이 들도록 해주죠. 노인들의 약 먹는 일정도 챙겨줍니다.

결국 '사람에 대한 이해'가 인공지능 콘텐츠의 핵심이라고 할 수 있습니다. 기술도 중요하지만 어떻게 사람들에게 다가가느냐도 중요합니다. 이 때문에 공학이 아닌 인문학, 예술 등 모든 부분이 함께 발을 맞춰야 하겠죠.

또 하나는 사이버 보안의 취약성입니다. 만약 우리가 머무르는 공간에 누군가가 카메라를 설치해놓고 '우리는 도청하지 않으니 안심하세요.'라고 써놓았다고 해봅시다. 그래도 뭔가 찜찜하죠.. 인공지능 스피커에는 사람의 소리를 인식할 수 있는 마이크가 들어있습니다. 비록 통신사는 고의적으로 사람들의 이야기를 도청하진 않습니다. 다만 해커들이 빈틈을 노릴 뿐입니다.

https://youtu.be/G7I2B84VXlg

위의 뉴스를 보면 생각보다 보안에 취약하다는 것을 알 수 있습니다. 할많하않 표정으로 개발자가 이야기가 있는데..ㅠ 결국 인공지능 스피커가 돈을 버는 흑자 구조가 아니다보니 투자가 적게 이루어지고 그 영향으로 보안에 개선이 쉽게 이루어지지 않습니다. 사이버 보안을 강화하기 위해서는 개발자들의 연구와 많은 대비가 필요한데 결국 돈안되는 사업에 투자가 제대로 이루어지지 않는다는 걸 알 수 있죠.

음성 인식=기기가 사람에게 다가오는 변화

개발자 입장에서는 기술이 발전할수록 구현이 복잡하겠지만 유저 입장에서는 '기술의 발전=사용의 편리함'이 될 수 있습니다. 세탁기가 처음 등장할 때는 사람이 세탁 시간, 수위 정도, 세탁 강도, 탈수 시간 등을 일일히 다이얼로 맞춰야하는 때가 있었지만 기술이 발전하며 버튼 한 두번만 누르면 다 알아서 맞춰줍니다. 그만큼 기술은 사람이 사용하기에 편리하도록 개발되고 조정되어왔죠.

우리가 컴퓨터에 입력하는 방법은 아직까지는 키보드와 같이 직접 버튼을 눌러 신호를 보내는 방식이 대다수입니다. 반면 우리가 사람과 소통할 때는 격식이 다소 자유로운 자연어, 즉 대화를 선호하죠. 문자나 카톡이 가지는 장점도 있지만 같이 있다면 대화로 소통하는 것이 더 좋죠. 기계와 사람도 이제는 같은 공간에서 24시간을 공존하는 시대가 되어갑니다. 이전에는 사람들이 기기에 맞춰가야 했다면 이제는 기계가 사람의 소통방식에 맞추어오는 시대가 되어가는 때가 다가오고 있습니다.

그 시작이 바로 음성 인식이라고 할 수 있습니다. 언어는 사람들의 소통에 가장 기본적이고 필수적인 방법이기 때문입니다.

keyword

매거진의 이전글[AI 기초] II-3. 음성 인식과 언어 이해-1 [AI 기초] II-4. 기계학습의 개념과 활용-1매거진의 다음글