지난한 시간, 끊임없는 기술의 시대를 지나고 있습니다. 시류에 따른 기술 활용은 인간의 삶의 양식에도 영향을 미쳐왔죠. 기술과 인간의 관계 속 소리의 정경 역시 역사 문화적 맥락을 따라 변화하기 마련입니다. 자동차가 발명되면서 마차의 말발굽 소리가 사라졌듯이 자연과 인간, 그리고 기술의 소리 풍경은 시대에 따라 혼합되고 해체되며 변화해 왔습니다. 나아가 현시대에는 배경음으로 기능해 온 소리 풍경 외에도 기술과 결합한 새로운 소리가 등장하며 특정적이고 의도적인 신호음으로서 작용하기도 합니다. 휴대전화 벨소리, 엘리베이터 도착음, 세탁기 알림 소리만 봐도 가까운 일상 속 알림음으로 기능하고 있는 걸 알 수 있죠. 그런데 심지어는 기계가 사람의 목소리를 흉내내기도 합니다. 전화 자동응답시스템(ARS), 길을 안내하는 내비게이션, 전기밥솥에서 나오는 안내 음성, 다음 역을 알려주는 지하철역 안내음에 이르기까지, 우리는 수많은 개체가 청각적으로 의인화되고 알림화된 소리 세계 속에 살고 있습니다. 그렇다면 이러한 기계화된 ‘목소리’는 어떻게 탄생한 것일까요? 이번 VIEW에서는 기술 시대 속 ‘의인화된 기계의 목소리’의 양상을 살펴봅니다.
소리는 사전적 의미로 물체의 진동에 의하여 생긴 음파가 귀청을 울리어 특정 양식과 범위 내로 귀에 지각되는 것을 의미합니다. 그중에서도 목소리(음성, 音聲)란 “사람이 발성 기관을 통해서 내는 소리”입니다. 사람이 말하거나, 웃거나, 울거나, 노래할 때 내는 소리가 모두 목소리에 해당하죠. 때로 목소리를 매력으로 삼는 대중적 경향도 자주 보이곤 합니다. 나긋나긋한 목소리, 중저음의 목소리, 성대가 강하게 접촉하고 울림이 큰 목소리는 신뢰도를 높이거나 호감을 사기도 하며, 최근에는 매력적인 목소리와 관련된 ‘음색 깡패’, ‘귀호강’과 같은 말까지 자주 사용되고 있죠. 한편 목소리는 특정 존재의 정체성을 드러내는 수단으로도 기능해 왔습니다. 부모님과 친구, 혹은 사랑하는 사람과 통화할 때 수화기 너머 들려오는 목소리만으로도 향수가 일어나거나, 설레는 감정을 경험해본 적이 있을 겁니다. 목소리가 곧 청각적 정체성이 되는, 대상을 떠올리게 하는 매개체이자 주체가 되는 것이죠. 목소리의 정체성은 때때로 전화 통화나 팟캐스트, 라디오와 같이 대상이 보이지 않는 상황에서도 대상을 상상하고, 심지어 모르는 존재에 대해 특정 인상을 심어주거나 친밀감마저 느끼게 할 만큼 특징적이라 할 수 있습니다.
그렇다면 현시대의 기술과 목소리는 어떤 관계를 지닐까요? 변화하는 매체와 기술에 따른 소리 환경의 변화는 기계를 다만 수용체로서 받아들이는 일방적 관계를 넘어, 인간의 교감과 교류의 상대가 되는 상호 관계를 드러냅니다. 그래서 이제는 기계로부터 친밀감과 유대감을 끌어내기 위해 인간의 ‘목소리’를 부여하여 의인화된 소리를 사용하기도 합니다. 2011년 애플의 시리(Siri)를 시작으로, 삼성의 빅스비(Bixby), KT의 기가지니(GIGAGenie) 등의 음성 인식 장치들이 대표적인 사례들이죠. 2013년 상영된 스파이크 존즈(Spike Jonze) 감독의 영화 <HER>에서는 인공지능 ‘사만다’의 목소리를 통해 인간과 AI의 정서적 교감, 목소리를 매개로 한 인공지능과의 교감을 통해 사랑에 빠지는 인간의 모습을 보여주기도 하지요.
하지만 주목해야 할 점은, 이러한 음성 인식 장치 대부분이 젊은 여성의 목소리를 갖고 있다는 것입니다. 개발 업체들은 인공지능 음성을 제작할 때 “20대 중후반의 여성 비서”를 가정하여 목소리를 개발했다고 말합니다. 그 이유에 대해서는 대개 성별을 특화하지 않은 경우보다 성별을 분명히 인식할 수 있는 경우에, 그중에서도 남성보다는 여성의 목소리가 흘러나올 경우에 더 편안하게 느낀다는 소비자의 선호를 최우선으로 반영했다고 말합니다. 과학적으로 여성의 목소리가 더 또렷하고 편하게 들린다든가, 실제 여성의 목소리가 인식하기 용이하다는 설계와 개발상의 편의성, 남녀 소비자들 모두 여성의 목소리를 더 편하게 느낀다는 문화적인 이유 등을 들곤 합니다.
목소리를 기계음으로 구현하는 과정에서 여성의 목소리가 주로 사용된 것은 결코 새로운 일이 아닙니다. 하지만 이는 과학적 근거에서 비롯했다기보다는 사회 문화적으로 굳어진 여성의 이미지에서 기인함을 알 수 있습니다. 일본의 한 증권사에서 운영하는 자동 음성 안내 시스템에서는 기본적인 주가 안내에는 “상냥한” 여성의 목소리를 사용하고, 주식 거래를 진행할 때는 “신뢰감 있는” 남성의 목소리로 전환한다고 말합니다. 이는 인간의 목소리가 기계와 만날 때 성별의 결정은 단지 기술적인 효용 때문이 아니라, ‘상냥한 여성’와 ‘신뢰감을 주는 남성’ 등과 같은, 젠더에 관한 기울어지고 고정된 이미지를 가진 사회 문화적 배경이 있기 때문일지도 모릅니다. 카자 실버만(Kaja Silverman)은 페미니즘 영화이론 저서 『음향적 거울』(The Acoustic Mirror)에서 사회가 오랜 기간 동안 여성에게 부여한 특성, ‘여성적 목소리’는 남성 주체성으로부터 거부된 음향적 거울로서 기능하며 독자적인 서사적 주체성을 지니지 못한다고 주장합니다. 그저 어머니로서의 훈계의 말, 연인으로서의 달콤한 중얼거림, 아이 같은 귀여운 말들로 정형화되는 것을 요구받고 있음을 보여줍니다. 동시에 ‘친밀감’이라는 이름 하에 젠더에 관한 편견과 차별이 산재해 있음을 드러내죠.
새롭게 출시되는 음성인식 장치들은 젊고 상냥하며, 활발하고 젊은 여성의 목소리를 적극 구현합니다. 핀란드의 사운드 문화학자 헬미 예르빌루오마 (Helmi Järviluoma)는 저서 『질적 연구 방법과 젠더』(Gender and Qualitative Methods)에서 영화음악과 뮤직비디오를 분석합니다. 그리고는 음악에서 여성의 목소리가 사용되는 방식은 역사적으로 욕망을 불러일으키거나 사랑을 노래하거나 소음을 담당하는 정도로 제한되어 왔다는 점을 밝혔습니다. 즉, 여성의 목소리가 많이 들린다는 것과 여성의 목소리가 주체적인 서사를 담당한다는 것이 별개의 이야기임을 드러낸 것인데요. 이는 남성의 목소리나 음악이 내러티브를 이끌어가거나 메시지를 전달하는 것과는 대비되는 방식이라고 주장합니다. 인간의 뇌는 선천적으로 자궁에 있을 때부터 들어왔던 어머니의 목소리에 더 반응한다는 것, 과거 전화 교환이나 상담 업무의 대다수가 여성의 노동 영역으로 특성화되어 있었다는 것, 수많은 메시지 녹음 시스템에 여성의 목소리가 사용된 것 역시 같은 맥락을 잇는 이야기가 될 수 있겠죠. 나아가 디지털 시대 기계의 의인화 과정마저 여성의 상냥하고 우아한 이미지를 심어내는 양상은 경제적, 기술적, 사회적, 문화적 관념이 복합적으로 작용하고 있다는 문제의식을 야기합니다.
프랑스의 정치경제학자 자크 아탈리(Jacques Attali)는 우리가 듣기 좋은 소리를 ‘음악’, 듣기 싫은 소리를 ‘소음’이라 정의하는 것은 역사∙문화적으로 구성된 것이라고 이야기합니다. 시끄러운 자동차의 경적이나 유리를 깨는 소음도 장르에 따라 음악이 될 수 있는 것처럼, 여성 혹은 남성의 목소리에 대한 무의식적 편견은 이러한 역사적 과정을 고려하지 않은 주장이 아닐지 묻습니다. 이에 따라 현시대에 기계와 인간, 소리의 관계에 대해 기업의 ARS 음성이 상냥한 여성의 목소리인 것은 물리적인 소리의 특질이나 기술적 한계 때문이 아닌, 문화적이고 사회적 이유에서 비롯한 것이 아닌지 질문을 던져 봅니다.
아이폰의 ‘시리’는 말을 알아듣지 못하면 “죄송해요, 이해를 못했어요. 한 번 더 말씀해주시겠어요?”라고 대답합니다. 시리에게 대화의 주도권은 존재하지 않죠. 곳곳에 퍼져 있는 정형화된 여성의 목소리들이 과연 상품성과 친근감을 위한 단순한 전략일 뿐인지, 혹은 사회문화적으로 오랜 기간 이루어졌던 차별을 집약적이고 은근하게 보여주는 현실인지를 의심해 봅니다. 현시대가 바로 기술 속 소리 환경의 의미를 한 번 더 고민해야 하는 시점이 아닐까요?
참고문헌
이희은, “AI는 왜 여성의 목소리인가? 음성인식장치 테크놀로지와 젠더화된 목소리”, 한국언론정보학보, 2018, P126-153.
김경화, “소리와 젠더: 소리, 음악, 문화 관행과 담론의 젠더화”, 음악논단 제47집, 2022, P27-56.
*이 글은 인공지능 음성인식 디바이스 기술을 비판적으로 다룬 위 논문을 참조∙요약한 것입니다.
51호_VIEW 2023.10.26.
글 ∙ 소록
에디터
씨샵레터 구독하기
만드는 사람들
정경영 계희승 강지영 권현석 김경화 정이은
에디터S 소록
#VIEW #기술 #소록 #씨샵레터 #음성인식장치 #인공지능 #젠더 #젠더편향성 #젠더화된 목소리 #테크놀로지