brunch

You can make anything
by writing

C.S.Lewis

딥페이크(Deepfake)/딥보이스(Deepvoice)

 시각적으로 속이는 것이 청각적으로 속이는 것보다 더 쉽다?!

출처: 게티이미지뱅크

딥페이크(Deepfake)

딥페이크(deepfake, 딥 러닝(deep learning)과 가짜(fake)의 혼성어)는 인공 지능을 기반으로 한 인간 이미지 합성 기술이다. 생성적 적대 신경망(GAN)라는 기계 학습 기술을 사용하여, 기존의 사진이나 영상을 원본이 되는 사진이나 영상에 겹쳐서 만들어낸다. 딥페이크는 영화나 방송계 등에서 이미 사망하거나 나이가 든 배우를 스크린에 되살리거나 초상권 보호 등을 위해 사용할 수 있는 한편, 유명인의 가짜 섹스 동영상이나 가짜 리벤지 포르노, 가짜 뉴스나 악의적 사기를 만드는 데에 사용되어 논란이 되기도 했다.

(출처: 위키백과)


딥보이스(Deepvoice)

딥보이스는 위에서 설명한 딥페이크와 유사 기술로, 딥페이크가 이미지 합성 기술이라면, 딥보이스는 목소리 합성 기술이라고 볼 수 있다. 즉, 특정인의 목소리를 딥 러닝 기술로 학습시켜, 문자 음성 자동변환 기술(TTS-Text to Speech)로 해당 특정인이 하지 않은 말을 마치 한 것처럼 만들어 내는 기술이다. 다만, 강연, 연설, 단조로운 상담 어조 수준의 단편적인 발화만 실제 사람인지 여부를 구분하기 어려울 뿐, 감정의 변화에 따른 상호 대화 수준의 발화 음성은 어느 정도 관련 분야의 전문지식과 분석 경험이 있다면, 충분히 검증 가능한 수준으로 실제 사람과 구분할 수 없을 정도의 기술에는 못 미치고 있다.


위의 두 문단은 4차산업혁명의 핵심 키워드인 인공지능(AI) 중에서도 주요 기술인 딥러닝으로 구현해낸 결과물에 대한 설명이다. 눈치 빠른 분들은 위에서 설명한 내용을 보고 한 가지 이상한 점을 느꼈을 것이다. 바로 딥페이크 기술에 대한 설명은 출처가 위키백과로 되어 있는데 딥보이스에 대한 설명은 출처 표시가 없다. 이유는 딥보이스에 대한 표준화되고 보편화된 설명이 아직은 웹 검색에서 소수의 기사나 블로그 내용에서 언급한 것 밖에 없어서다. 이는 아직 그 기술의 완성도가 딥페이크에 비해서 낮다고 봐도 무관하다.


딥페이크는 큰 틀에서 보면 CG기술에 인공지능을 접목한 것으로, 일일이 사람이 프레임별 컴퓨터 포토리터치 작업을 하지 않아도 컴퓨터가 알아서 인간의 표정 변화 등을 딥러닝 알고리즘으로 학습하여, 실제 사람을 촬영한 것인 양 화면 속에서 움직이기 때문에, 이 인물이 실존하는지 여부, 실존 인물이라도 그 사람이 화면에서 실제로 움직이는 것인지 아니면 컴퓨터가 가짜로 움직임을 만들어낸 것인지 여부를 판별하기 어려운 수준까지 발전했다.


딥보이스는 큰 틀에서 보면 TTS기술에 특정인의 음색을 딥러닝 알고리즘으로 학습시켜, 해당 인물이 실제 발화하지 않은 어음(語音, 말소리)을 생성하는 기술이다.


얼핏 보면, 딥페이크 기술보다 딥보이스 기술이 더 쉬울 것 같아 보인다.

이유는 간혹 TV를 보면 개그맨들이 특정인을 흉내내기 위해 특수분장을 한 것을 보면 아무리 비슷하게 해도 해당 인물의 특징만 모방한 것일 뿐, 그 인물과 구분하지 못할 정도는 아니기 때문이다. 하지만 성대모사는 눈을 감고 들으면, 실제 해당 인물의 목소리처럼 들리는 경우도 적지 않기에 이런 경험을 토대로 생각해보면 딥페이크 기술이 딥보이스 기술보다 구현이 훨씬 더 어려울 것 같다.


하지만 인공지능 기술은 그리 녹록하지만은 않다.

우선 실시간 구현이라는 조건으로 보면, 딥페이크나 딥보이스 기술은 아직 매우 미비하다고 볼 수 있다.

즉, 사람이 실제로 한 행동을 컴퓨터로 하여금 시간차를 두고 인공지능 알고리즘을 활용하여 모방시켜 실존 인물이든 아니든 상관없이 얼굴 표정이나 새로운 발화체로 말하는 음성을 구현하는 기술은 상당히 완성도가 높으나, 그 경우의 수를 벗어난 실시간으로 어떤 자극에 반응하는 등의 창의적인 새로운 표정, 목소리, 행동은 아직까지 즉각적으로 실시간 사람을 속일(fake) 정도로 진짜에 가깝게 만들지는 못한다.


이유는 단순하다.

인간의 뇌가 유전적으로 지닌 인지능력을 컴퓨터가 모두 학습하지 않은 상태에서 사람인양 결과물을 출력할 수 없기 때문이다. 다시 말해서 컴퓨터는 입력된 것만 합성해서 출력할 뿐, 인간이 선험적으로 타고난 능력까지 모방할 수는 없다. 늘 그랬듯 인간의 뇌는 인간인 우리에게도 알듯 말듯한 미지의 세계이기 때문이다.


'사람의 뇌가 인간의 뇌를 온전히 파악하고 개념화할 수 있는가?'


뇌과학에서 재밌는 역설적인 물음이 '사람의 뇌가 인간의 뇌를 온전히 파악하고 개념화할 수 있는가?'이다.

따라서 우리가 스스로의 뇌도 아직 다 학습하지 못했는데 컴퓨터로 하여금 이를 학습시킨다는 것은 어불성설이라고 볼 수 있다. 다만 우리가 아는 수준에서의 기대 능력을 부여하는 것은 가능할 수도 있기에 끊임없이 이런 기술을 개발하고 연구하는 것이다. 그중에서 한 분야가 바로 사람이 직접 화면에 나와서 말하지 않아도 컴퓨터가 대신 해당 인물을 등장시켜 말하도록 구현하는 기술이다. 할 수만 있다면, 시공을 초월한 콘텐츠를 무한 생성할 수 있다는 점에서 매우 혁신적이기에 딥페이크, 딥보이스 기술은 앞으로도 매우 핫한 이슈로써의 지위를 누릴 것은 분명해 보인다.


딥페이크 VS 딥보이스 기술 중 어느 기술이 더 사람을 속이기 쉬울까?


사람의 얼굴이나 표정 모습은 일반적인 화면에서 2D로 볼 경우 그 경우의 수가 생각보다 많지 않다.

간혹 배우 중에 발연기라고 평가하면서, 저 배우는 기쁠 때나 슬플 때나 화낼 때 표정이 모두 똑같다고 야박하게 평을 하는 말을 들어본 적이 있을 것이다. 바로 이런 맥락에서 보면 이해하기 쉽다.

사람마다 차이가 있겠지만 보편적으로 우리가 시각적으로 인식하는 일반적인 사람 얼굴의 표정은 희로애락 수준을 많이 벗어나지 않기 때문이다. 그러니 여담이지만, 얼굴 큰 배우의 표정 연기를 작은 얼굴을 가진 배우가 이기기 쉽지 않다는 우스개 소리도 있다.

그래서 주로 사람의 얼굴을 모방하는 기술인 딥페이크 영상은 상당 부분 사람을 속일 정도 수준에 이르렀다.


하지만 이런 면에서 볼 때 딥보이스 기술은 딥페이크 기술과는 좀 다르다.

사람의 목소리는 미묘한 감정 변화가 매우 잘 드러난다.

녹취분석전문가로서 필자가 음성(목소리)분석을 오랫동안 해온 경험으로 볼 때, 사람이 말할 때 사용하는 발화기관 중에 호흡기관의 역할이 매우 중요하기 때문으로 추정된다.

호흡기관은 인간이 일부 통제 가능한 자율신경계로 의도적으로 호흡을 빠르게, 천천히 제어할 수도 있지만 흥분하거나 반대로 우울할 때 자신도 모르게 자율신경계인 맥박, 혈압 등의 영향을 받아 호흡의 패턴이 달라지기도 한다. 발화는 공기 에너지로 시작되는 만큼, 말할 때 당시의 신체 및 감정의 상태 변화에 따라, 목소리의 빠르기(speech rate), 높이(pitch frequency), 세기(volume dB) 등도 함께 변하므로 호흡기관의 영향을 상당 부분 받지 않을 수 없다. 그래서 사람이 의사소통을 할 때 목소리의 톤에 따라 같은 발화체라도 받아들이는 감정의 인식, 상황 파악에 대한 인지가 완전히 다르게 된다. 이는 굳이 사례를 언급하지 않더라도 경험을 통해 잘 알고 있으리라. 만약 이를 새삼 확인하고자 하는 분들이 있다면, 영화나 드라마를 볼 때 자막 지원(청각장애인들을 위한 자막방송) 모드를 활성화시키고, 음소거 버튼을 누른 뒤에 5분만 보면, 어떤 배우가 연기를 잘하는지 한눈에 알 수 있게 되는데, 이때 목소리가 얼마나 의사소통의 감정 표현에 있어서 중요한 역할을 하는지 느끼게 될 것이다.


특히 목소리는 자고 일어났을 때부터 잠들기 전까지 늘 매 순간 다르기 때문에, 표정 변화와 비할바가 아니다. 또한 대화를 주거니 받거니 할 때 무의식적으로 반사되어 반응하는 추임새는 사람마다 주기와 패턴, 형태가 다르기 때문에 실시간은 고사하고, 단순한 TTS기술 영역에서 조차 이것까지 인공지능이 구현한다는 것은 작금의 기술 수준으로 볼 때 매우 제한적이라고 볼 수밖에 없다. 그래서 그나마 구현 가능한 수준이 일반적인 전달 수준의 의사 발언 정도의 연설, 강연이나 설명 문구의 전달, 단순 응대의 전화 상담 접수 정도다.

그러므로 딥보이스 기술로 일상적인 대화나 티키타카는 할 수는 있겠지만 사람과 구분하지 못할 정도 수준은 현재 기술로는 어렵다. 그래서 얼굴을 모방하는 기술은 속인다는 의미의 페이크(fake)가 키워드에 포함되나, 딥보이스는 페이크라는 표현 없이 딥러닝 알고리즘을 활용한 음성 합성 기술로만 통용하는 것으로 이 둘의 기술 차이를 이해할 수도 있겠다.


2019년 5월에 여기 브런치에 쓴 글(링크:https://brunch.co.kr/@2lab/46) 큰 제목이 "인공지능 음성 공격에 대비하라!"였고, 소제목은 '보이스 피싱, 이제는 사람의 청음 능력으로 구분할 수 없는 한계가 온다.'였다. 당시에 네이버 클로바는 '네이버 AI 콜로키움(Colloquium-전문가 회의) 2019'에서 밝힌 내용에서, 강연자가 500문장을 현장에서 자신의 목소리가 아닌, AI가 강연자의 목소리를 흉내 낸 음성으로 립싱크를 했음에도 아무도 참석자들이 알아채지 못했음을 자랑하는 기사를 함께 수록했었다. 그 기사에서 네이버 클로바는 모방 대상자의 30분 녹취음성만 있으면 머신 러닝으로 해당 인물의 목소리를 모델링하여 TTS로 구현할 수 있다고 하였다. 당시에는 매우 놀라운 기술이었다. 그러나, 이 기술에 대해서 간과한 것이 있었다. 바로 인간의 말이라는 것이 일방적 강연만 있는 것이 아닌 대화를 통한 의사소통이 주된 것이고, 이때 상대방과 주거니 받거니 하는 의사소통의 발화 과정에서 리액션과 감정적 동기화에 따른 목소리의 변화까지 구현하는 것은 그리 단순하지만은 않다는 것이다. 필자 역시도 당시 이를 간과했었기에 미래 딥보이스 기술에 대한 기대와 우려의 글에 보이스 피싱을 언급했었던 것이다.


이후 정확히 오늘이 2022년  6월이니까 만으로 3년이 지났다. 그때 기술에 비하면 지금 기술은 분명 향상되었다. 그러나......

기술 발전 이면에는 늘 역설적으로 기술 구현의 결과물을 통해 우리가 구현할 수 없는 것이 무엇인지를 깨닫게 되는 묘한 상황과 마주하게 된다.


물론 하루가 다르게 고도화되는 인공지능 기술로 볼 때 나아지고 개선되는 부분도 있다.

가장 최신 기술 동향 리포트, 논문으로 살펴본 최근 AI voice 기술 수준은 대화 중에 단순한 한 두 문장의 텍스트를 TTS 기술을 통해 AI가 말할 때, 그동안 보편적으로 보여준 감정 표현의 목소리가 평온/슬픔/기쁨/두려움/분노였다면, 좀 더 폭넓게 놀림/실망/수줍음/자랑 등의 정도로 세분화되는 수준으로까지 모델링 되었다. 그러나 다소 작위적이고 주관적일 수 있는 정량화에 따른 모델링으로 인공지능(AI) 목소리(voice)라고 인식한 상태에서만 해당 감정의 알고리즘 패턴으로 구현된 AI voice를 인지할 수 있을 뿐, 내가 지인의 목소리라고 속을 만큼의 수준까지는 꽤 적지 않은 시간이 필요할 것으로 예상된다. 이유는 다양한 감정의 변화에 따른 엄청난 양의 발화체 패턴의 모델링은 진정한 빅데이터가 필요하기 때문이다. 보편적 정서의 감정 변화가 아닌 특정인의 감정 변화의 습관적 언어 표현까지 구현한다는 것은 앞서 네이버가 강연 연설에 필요한 모델링이 타겟 인물의 녹취음성 30분 정도의 목소리 데이터 분량이라고 언급한 것을 기준으로 볼 때, 각각의 감정 상태에 따른 데이터와 그 감정의 태깅(Tagging), 그 사람만의 고유 언어의 습관적 매칭(matching)까지, 이 모든 것들을 완벽하게 속이기 위한 모델링으로 구현하려면, 상상만으로도 머리 아프다.


불과 20년 전만 해도 인공지능 기술에 대한 전망에 대해, 관련 학계에서는 이미 1980~90년대를 포함하여 수차례 불가능한 기술이라는 결론을 내렸던 적이 있었더랬다. 그러다가 인터넷을 통한 빅데이터의 출현이 인공지능 기술에 불을 댕긴 것처럼, 또다시 무언가를 우리가 간과한 전망일 수도 있다.

반대로 사람의 지능에 견줄 인공지능은 생각만큼 임박하지 않았다는 기사도, 최근까지 묻지마식 '4차산업혁명', '인공지능'에 대한 찬양 일변도의 기술 리포트를 뒤로하고 속속 나오는 것 또한 현실이다. 며칠 전 'Scientific american' 과학저널 2022.06.06 게시 기사 제목 'Artificial General Intelligence Is Not as Imminent as You Might Think'(기사 원문 링크)만 보더라도 자연어 처리 인공지능 알고리즘 모델 중에 가장 호평을 받는 GPT-3로 OpenAI(인공지능 개발 연구소)가 만든, Text를 입력하면 그림을 그려주는 인공지능(아래 4개 이미지도 DALL-E2가 그린 그림) 'DALL-E2' 최신 버전조차 말을 탄 우주인과 우주인을 탄 말을 구분하지 못한다며, 보편적 지능을 갖춘 인공지능 임박 낙관론에 대해 그렇지 않음을 지적한 바 있다.

출처: 'Scientific american' 과학저널 2022.06.06 게시 기사

이렇듯 인공지능 기술에 대한 낙관론과 비관론 그리고 신중론이 혼재되어 있는 현재, 우리는 무엇이 옳고 그름을 판단하기에 앞서 우려가 현실로 나타나지 않도록 대비하고 준비하는 것이 필요하다는 데는 이견이 없으리라 생각한다.


그래서 본 글 제목도 해당 기술의 키워드만을 제시하고, 소제목도 물음표와 느낌표로 대신했다.

그만큼 기술 발전, 변화에 대한 이면을 고려하지 않을 수 없게 되었다고 해도 과언이 아닐 것이다.


사실 딥보이스에 대해서 글을 쓰게 된 계기는 내 직업상 의뢰인들의 문의 때문이다.

언론에서 인공지능(AI) 기술에 대해서 다소 과장되게 표현한 기사 타이틀이나 관련 업체들의 기술력에 대한 장밋빛 전망(혹은 앞서 언급한 2019년 미래 보이스 피싱 예측에 대한 우려의 내 글도 한몫했으리라;;;)을 보고, 법적 소송 중에 상대편이 제출한 녹취 증거 중에 내가 하지 않은 말이 있다고 주장하며, 해당 음성이 딥보이스와 같은 인공지능 기술로 조작된 것이 아닌지 감정해달라는 의뢰가 간혹 문의돼 서다. 그럴 때는 아직은 시기상조라며 걱정 말라고 안심시킨다. 하지만, 바쁠 때는 이런 응대마저 할 수 없기에, 그리고 보다 많은 분들에게 이런 상세한 설명이 필요하다는 생각에서 본 주제로 노트북을 펴게 되었다.


앞서 다른 나의 글처럼 쓰다 보니 역시나 두서없이 장황한 글을 늘어놓게 된 것이 아닌지 걱정된다.

아무쪼록 너그러운 마음으로 읽어주기를 바랄 뿐이다.

기회 될 때마다 자주 읽으면서 고칠 것을 다짐하며... 이만 줄이겠다.


끝까지 읽어주셔서 감사합니다.^^

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari