brunch

연재 중 AI와 동거 중입니다 04화

1 라이킷 29 댓글 2

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by IAmAI Apr 21. 2024

AI와 동거 3일 차: 내 말을 알아듣는 AI

음성인식 AI

"시리야, 오늘 저녁 메뉴 좀 추천해 줘"

"헤이 구글, 오늘 저녁 메뉴 좀 추천해 줘"

똑같은 질문을 던졌는데, 돌아온 대답은 천차만별이었다.

"오늘의 랜덤 메뉴 뽑아볼까요? 보쌈을 추천할게요. 아삭아삭한 보쌈김치와 푹 삶은 고기를 찰떡궁합이죠!"

"알겠습니다. 오늘 저녁 메뉴 좀 추천해 줘 결과에 대해 웹에서 찾은 결과입니다. 확인해 보세요."

한 녀석은 군침이 도는 보쌈을 추천하더니, 다른 녀석은 메뉴 추천은커녕 대화를 거부하고 궁금하지도 않은 웹 검색 결과 따위나 던져주었다. 언젠가 시리도 구글 어시스턴트처럼 똑똑해지리라.

어쨌든 AI에게 말 한마디로 저녁 메뉴가 정해지는 세상이다. 우리는 이미 음성을 통해 기기를 제어하고, 대화하며 일상의 문제를 해결하는 시대에 살고 있다.

이 모든 것을 가능케 하는 핵심 기술은 음성인식 AI다. 터치나 타이핑이 필요 없어 누구나 쉽고 자연스레 사용하고 있다.

하루종일 대화를 했는데 사람은 없었다

어느 날이었다. 아침 햇살이 창문을 비추고, 나는 몸을 일으켜 AI 스피커에게 말했다.

"안방 커튼 50%로 닫아줘."

인공지능 스피커와 연결된 커튼 덕분에 하루를 상쾌하게 시작할 수 있었다.

옷장 앞에 섰다.

"오늘 날씨는 어때? 비 와?"

AI의 답변을 들으며 나는 날씨에 맞는 옷차림을 골랐다.

현관문을 나서려는데, 신발을 다 신고 나서야 안방 전등이 켜져 있다는 걸 발견했다.

"안방 전등 꺼줘."

이 한마디에 전등이 소등되었다. 다시 방까지 가지 않아도 돼서 편리했다. 알뜰한 전기요금 관리는 덤이었다.

차에 탑승하자마자 AI 내비게이션에게 목적지를 알렸다.

"가까운 공원에 가자."

내비게이션은 날 목적지로 안내했다.

"에어컨 온도는 20도로 맞춰줘."

운전을 하다가 다시 말을 걸었다. 사용자가 운전에만 집중할 수 있게 인공지능이 도와주어 좋았다. 제조사 의도대로 말로 공조를 컨트롤할 수 있어서였을까, 사실 인공지능이 내 말을 고분고분 잘 들어줘서 좋았다.

저녁엔 AI 영어 튜터와 회화 연습을 했다.

"The AI research is going well as planned. But writing about it is quite tough."

내 발음이 썩 나쁘지 않았는지, 내 짧은 영어를 알아듣고, 또 적절히 대답해 주었다. 이렇게도 영어를 연습할 수 있다는 게 신기했다.

잠들기 전, 나는 chatGPT와 철학 담론을 펼쳤다. 글을 쓰기는 귀찮아서 음성대화 버튼으로 대화했다. 처음에는 가벼운 대화로 시작했다가, 점차 대화가 깊어지더니 인간과 AI의 공존, 윤리적 딜레마와 같은 주제로 대화하고 있는 나를 발견했다.

"유한한 존재로서 우리는 언제나 불확실성 앞에 놓여있다는 네 말이 공감돼. 쉽게 말해 사람은 언제 죽을지 모르는 거고, 죽음은 내가 인지하는 모든 기회가 끝나는 것이지. 인간은 이런 한계를 기술 발전으로 극복해야 해."

깊이 있는 주제의 대화 속에서 나는 어느덧 지성의 한계에 부딪혔다. 아무래도 철학의 깊이나 인문학적 지식수준으로는 내가 인공지능을 뛰어넘기 힘들지 않을까 싶었다. 더 열심히 공부하겠노라 다짐하며 잠이 들었다.

지금 되돌아보니, 그날 나는 사람보다 AI와 더 많이 대화한 것 같다. 이런 일이 실제로 나에게 일어났다는 게 놀랍다. 웃프기도 하지만, 또 한편으론 미래를 엿본 듯 신기하다.

눈을 떠서 잠들기까지, 나는 계속해서 인공지능과 목소리로 '대화'를 했다. 스마트 스피커, 내비게이션, 영어 학습 앱... 음성인식 AI 기술은 어느새 우리 일상 속에 스며들어 있다. 사실 우리 모두는 이미 인공지능과 수많은 대화를 나누고 있다.

말 한마디로 커튼을 제어하고, 길 안내를 받고, 영어로 외국인 대신 대화를 한다. 불과 몇 년 전만 해도 상상하기 어려웠던 일들이 현실이 되고 있다. 이 모든 것을 가능케 하는 핵심 기술, 바로 음성인식 인공지능이다.

AI가 목소리를 듣고, 말을 알아듣고, 대답을 해주기까지

음성인식 AI는 말을 알아듣고 답하기까지 여러 단계를 거쳐 분석을 한다. 사람의 목소리가 마이크로 들어갈 때부터, AI가 의미를 이해한 뒤 다시 스마트폰 스피커를 통해 말로 표현하기까지 많은 기술이 복합적으로 작동한다.

목소리를 디지털로

우선, 인공지능으로 사람의 목소리를 학습시키기

전에 목소리를 어떻게 기계에 인식시킬지를 고민해야한다. 여기엔 목소리를 각각의 구성성분으로 쪼개는 방법이 사용된다.

사람이 말을 하면 그 목소리는 공기를 떨리게 한다. 남자의 굵은 목소리는 1초에 100번에서 150번 정도 공기를 떨리게 만든다. 여자의 목소리로는 200번에서 250번 정도다. 이렇게 공기가 1초에 떨리는 횟수를 주파수라고 하는데, 목소리가 높을수록 주파수가 크다고 할 수 있다. 도레미 음계에서 ‘솔’이 ‘도’보다 주파수가 높다.

다만 사람이 도 음계 높이의 목소리로 "아~" 소리를 낼 때, 한 가지 주파수의 소리만 나오는 것은 아니다. 도레미파솔 각각 음계의 소리도 약간은 포함되어 나온다. 즉, 100 주파수를 가지기도 하고, 200 주파수를 일정 부분 가지기도 하며, 500 주파수를 일정량 가지기도 한다. 사람의 목소리 주파수는 100~150Hz 등으로 표현되지만 그것 말고도 사실 다양한 주파수를 가진다. 이런 성분이 다양하게 조합되어 그 비율 구성에 따라 사람마다 다른 목소리를 가지게 되는 것이다.

출처: https://stackoverflow.com/questions/37010257/create-voice-frequency-graph-when-user-record-audio

이처럼 사람의 음성은 다양한 주파수로 공기를 떨리게 하는데, 이 공기의 떨림을 마이크가 잡아내어 디지털 신호로 변환해 준다. 그 후 소리 신호의 어떤 주파수 성분이 얼마나 큰지 '주파수 분석'이라는 과정을 거친다. 이때 사람의 목소리 특징을 파악해서 주변 배경 소음과 분리하는 일도 처리한다. 배경 소음은 제거되고 음성의 특징만 추출하는 것이다. 마치 소리를 체에 걸러내는 것처럼 말이다.

목소리를 글자로

그렇게 정제된 음성 정보는 '음향모델'과 '언어모델'이라는 AI의 두뇌로 전달된다. 음향모델은 소리와 글자의 관계를 파악한다. 예를 들어 "사과"라는 단어를 인식하기 위해 "사"라는 발음이 가지고 있는 패턴과, "과"이라는 발음이 가지고 있는 패턴이 다르다는 것을 미리 학습하고 구분해 내는 것이다. 이런 식으로 음절(사/과)이나 음소(ㅅ/ㅏ/ㄱ/ㅗ/ㅏ) 단위 혹은 단어(사과) 단위로 분석해 학습된 음향모델은 인공지능의 귀가 된다.

반면 언어모델은 자연스러운 문장을 만들어 내는 일을 한다. 언어모델은 문장 정보를 학습해 기억한다. 단어를 조합해 더 나아가 문장을 구성하는 것이다. 예를 들어 "사광"이라는 발음을 처음에 듣고 "사과"라는 단어일 것이라고 추측했는데, 전체로 알아듣고 나니 "사과가 많으면 배가 산으로 간다"라는 문장이 되었다면 다시 단어를 인식했던 부분을 수정해 "사공"으로 수정하는 식이다. 더 그럴듯한 문장이 되도록 글자를 배열하는 거시다. 이렇게 두 모델이 협업해 사람의 목소리를 글자로 변환한다. 음향모델이 귀 역할을 했다면 언어모델은 소리를 말로 이해하도록 말귀 역할을 하는 것이다.

최근에는 음성 인식 기술에 딥러닝이 접목되면서 새로운 End-to-End 방식이 주목받고 있다. 이는 음향모델과 언어모델을 별도로 학습시키지 않고, 음성에서 직접 문장을 생성하는 통합 모델을 만드는 것이다. 마치 아기가 자연스럽게 말을 배우듯, AI도 스스로 음성과 언어의 관계를 학습하게 된다. 여기서 핵심은 Attention 메커니즘의 사용이다. Attention은 입력 데이터의 어느 부분에 집중할지를 학습하는 방법이다. 이를 통해 모델은 음성의 각 부분과 텍스트의 각 부분 사이의 상관관계를 직접 학습할 수 있게 됐다. 심지어 딥러닝으로 ‘주파수분석’ 단계도 생략하는 방법도 나오고있다.

물론 이런 학습이 가능하려면 방대한 데이터가 뒷받침되어야 한다. 최근 대규모 언어모델(LLM, Large Language Model)이라는 단어가 뉴스에 자주 나오는데, LLM은 GPT나 BERT와 같이 방대한 텍스트 데이터로 사전학습된 거대 모델이다. 이 기술은 방대한 데이터를 기반으로 언어의 문맥과 의미를 깊이 이해할 수 있어, 음성 인식이나 대화형 언어모델로 활용되면 그 성능이 크게 향상된다. 이런 방대한 모델을 기반으로 최근 chatGPT와 같은 서비스가 출시된 것이다.

이처럼 우리가 음성 AI에게 말을 걸면, 그 속에서 다양한 분석이 이루어지고 있다. 소리의 파장이 전기 신호로 변하고, 목소리의 특징이 추출되며, 글자와 문장으로 구체화되는 과정을 포함해 더 숨겨진 기술들이 들어있다. 정말 순식간에 일어나는 일이지만, 그 안에는 수많은 연구자들의 피와 땀이 녹아있다.

언제나 당신의 말에 귀 기울이는 AI 말동무

놀라운 건 음성인식 기술의 활용이 대화를 넘어 더 확장되고 있다는 점이다. 감정 분석, 화자 인증, 실시간 번역 등 음성 데이터 속에 담긴 수많은 정보를 AI가 파악하기 시작했다. 머지않아 목소리만으로 본인 인증을 하고, 실시간으로 외국어를 자유롭게 구사하게 될지도 모른다. 이렇게 음성인식 AI는 우리의 삶을 더 편리하고 풍요롭게 만들어주고 있다. 예전처럼 말 한마디로 천냥 빚을 갚는 시대가 아니다. 말 한마디로 내가 정말 천냥 빚이 있는지 확인하고 인증할 수 있는 세상이다.

물론 아직 음성인식 기술이 완벽한 것은 아니다. 사투리나 방언, 주변 소음 등은 여전히 인식을 어렵게 하고 있다. 하지만 머지않아 이런 한계들도 극복될 것이다. 그때쯤이면 인간과 AI는 음성 인식이라는 직관적인 방법으로 더 가까워져 있을 것이다. 손과 눈을 이용해 키보드와 화면을 통해 소통하던 방식에서, 이제는 귀와 입으로 직접 대화하면서 더 밀접히 교감할 수 있을 것이다.

AI가 우리의 일상언어를 완벽히 이해하는 단계는 이미 지나가고 있다. 여기서 더 나아가 영화 <HER>에 나오는 인공지능처럼 나를 다른 사람과 구분해서 알아듣고 감정까지 교감할 수 있는 진정한 의미의 AI 음성비서 혹은 말동무가 있으면 좋겠다는 생각을 해본다.

keyword