brunch

You can make anything
by writing

C.S.Lewis

by 향기 Oct 23. 2021

원시인의 AI 목소리 녹음기

꼭 그렇게 해야 하나요?

진짜 친한 사람들만 아는 비밀이 있다. 인터넷 뱅킹을 못한다. 

ATM기기에 가서 하면 되는데  굳이 인터넷뱅킹을 할 필요를 지금까지 못 느꼈던 것이다.(보통은 그 반대라고 알고 있다) 

키오스크 매장 주문도 별로다. ‘덜 짜게 해주세요.’ ‘햄은 한 장만 넣어주세요’ 이런 말을 할 수 없다. 

배달의 민족 어플도 깔려있지 않다. 가서 사면 편한데 굳이 앱을 켜고 이리저리 메뉴를 터치하고 고민할 필요가 뭐 있나. 

이런 말이 이상하게 들릴 거라는 걸 안다. 그러니까 나는, 디지털에 밝지 못하고 비상식적으로 뒤쳐져 있는 셈이다.      


어려서부터 아날로그를 좋아했다. 카세트 테이프에 좋아하는 라디오를 녹음해서 들었고 급기야는 라디오PD를 꿈꿨다. 비록 보기좋게 떨어졌지만 한 때 내게 라디오는 분신 같은 존재였다. 지금도 하얀 화면에 글씨밖에 없는 e-book 보다는 바람에 흩날릴 때 나는 사각거리는 소리와 햇빛 몇 조각과 찻물 몇방울 떨어뜨린 흔적을 고스란히 간직하는 종이책을 좋아한다. 

메모도 스마트폰에 하는 대신 종이에 한다. 영상보다는 글이 좋다.     


그런데 최근, 기이한 경험을 했다. 기계 목소리를 녹음한 것이다. 

오디오 플랫폼 ‘나디오’에서 목소리를 AI 폰트로 바꾸는 작업을 했다. 여러 가지를 녹음했다. 첫째 둘째 셋째 이런 것부터 ‘너 왜 이렇게 천천히 가니?’ 이런 대화체까지. 문학 작품같은 문장도 있었고 뉴스같은 문장도 있었다. 처음엔 재밌었다. 무엇이든 말로 하는 건 다 재밌으니까.      


그런데 문제가 있었다. 모든 문장의 속도나 톤을 일정하게 해야 한다는 것이다. 

속도나 억양, 느낌 등이 일정해야 인공지능이 내 목소리와 말투를 학습한다고 했다. 물음표가 나오는 곳은 똑같은 억양으로 읽어달라고 했다. 가령 “너 어디가니?”의 물음표와 “꼴 좋아 보이네?”, “내가 그렇게 하라고 했니 안했니?”의 물음표가 똑같이 들리게 읽어야 했다.      


머리로는 납득이 갔다. 다 똑같아야 AI가 ‘아 이사람은 물음표에서 이런 억양을 주는구나’를 알게 되고 그 앎을 바탕으로 어떤 문장을 주어도 똑같이 읽을 수 있는 거니까. 그래서 최대한 요청을 맞추기 위해 노력했다. 하지만 그렇게 머리론 이해를 해도 말을 할 때 나도 모르게 문장에 마음이 담겼다. 

어떻게 ‘산골 마을에 꽃이 피었습니다’ 라는 촉촉한 문장과 ‘북미관계 개선을 위한 정상회담이 열렸다’ 라는 딱딱한 문장을 같은 톤으로 말할 수 있는가. 

어떻게 ‘네가 그리웠어.’와 ‘그는 수류탄을 던졌다’는 문장을 같은 속도나 억양으로 말할 수 있냔 말이다. 

최대한 그렇게 해보려고 노력했지만 자동반사처럼 조금이라도 뭔가가 달라져서 애를 먹었다. 디지털의 요구를 만족시키지 못했다.     


관계자분께 무척이나 죄송했다. 다시 해볼게요 라는 말에, 괜찮아요, 잘 학습할 수 있도록 해볼게요 라고 하셨다. 그렇게 녹음은 끝났다.

     

AI는 내 목소리와 말투를 어떻게 해석하고 있을까. 욕을 하고 있을지도 모르겠다. 아니지, 기계니까 그런 감정은 느끼지 못할 거다.      

아마 AI는 내가 그렇게밖에 할 수 없었던 걸 끝까지 이해하지 못할 것이다. 모든 문장마다 느낌이 다르고 같은 문장이라도 낭독하는 순간의 컨디션이나 감정 상태에 따라 매번 달라진다는 걸 이해한다는 건, AI가 인간의 사고와 감정, 육체를 가진다는 것이니까.      


얼마 전 MBN에서 김주하 아나운서의 AI 캐릭터가 잠깐 뉴스 한 꼭지를 전달하는 모습을 봤다. 

평소 김주하 아나운서의 말투와 목소리, 억양 모든 것이 흡사했다. 얼굴과 표정까지 똑같았다. 

다만 비슷하지 않은 게 있었다. 가슴 아픈 뉴스를 전할 때 나오는 더 낮은 톤의 작은 목소리와 미세한 호흡의 떨림, 매 문장마다 조금씩 달라지는 감정과 속도, 호흡, 포즈가 없었다. 

그건 AI가 따라할 수 없었다. 아날로그의 영역이므로.      


우리는 디지털 세계에 살고 있지만 우리의 목소리와 호흡은 아날로그적이다. 0 아니면 1로 나눌 수 없고 저장할 수도 없으며 복사할 수도 없다. 그것이 내가 아날로그를 더 사랑하는 이유다. 

(하지만 배민이 깔려있지 않고 인터넷뱅킹을 못한다는 건 원시인 수준이라는 걸 잘 안다. 조금 더 평범한 사람이 되기 위해 노력할 예정이다.)      

이전 02화 마이너 소리, 메이저 소리
brunch book
$magazine.title

현재 글은 이 브런치북에
소속되어 있습니다.

작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari