세상에 없는 사람들

인간을 대체할 디지털 인간

Oct 19. 2020

이 글은 진보적미디어운동연구저널 ACT! 120호에 게재되었던 글입니다.
https://actmediact.tistory.com/1477?category=1111331

포토 리얼리즘이란 미술용어가 있다. 사진처럼 실제에 가깝게 묘사하는 기법이나 사조를 말한다. 미술 본연의 자유로운 상상력과 다채로운 표현방식을 포기하고 극사실주의를 택한 이유는 저마다 다르겠지만 결과물만 놓고 본다면 더 이상 회화와 사진, 원본과 재현의 경계를 구분하기는 무의미해졌다.

모든 것이 디지털로 대체되고 연결되는 새로운 세상에서 인간은 어떤 존재가 될까. 또 미디어에는 어떻게 담기고 어떤 식으로 묘사될까. 오늘은 인간을 재현하거나 흉내 내는 첨단 기술 몇 가지에 대해 알아보려고 한다.

1. 이 사람은 존재하지 않습니다 닷컴 thispersondoesnotexist.com

머신러닝 기법으로 만들어낸 인간의 얼굴을 무작위로 보여주는 사이트.

그래픽카드로 유명한 NVIDIA사의 GAN 얼굴 제조기로 만든 얼굴들

이 사이트에 들어가서 새로고침 버튼을 누르면 매번 새로운 얼굴이 나온다. 남녀노소 인종별로 가리지 않고 다양한 얼굴을 가진 사람들을 만날 수 있는데, 사실은 GAN(Generative Adversarial Network)이란 머신러닝 기법으로 만들어낸 가상의 인간, 즉 실제로는 없는 얼굴들이다. 간혹 합성이 부자연스러운 얼굴이 보이기도 하지만 대부분은 얼핏 보면 해외여행을 하면서 흔히 볼 수 있을 정도의 평범한 얼굴들이다.

그동안 컴퓨터 그래픽 기술이 아무리 발달해도 영상 속에 담긴 가상 인간의 얼굴을 보면 늘 어색함이 느껴졌다. 점점 나아지고는 있는데 무언가 이질적이고 불편하기까지 했다. 그런 언캐니 밸리(uncanny valley) 현상을 피하기 위해 전문가들은 머신러닝 기법을 도입했다. 완전히 새로 만들어내지 않고 방대한 인간 사진 데이터 베이스를 바탕으로 인간 사진들의 유사점을 찾아내서 강화하고 어색한 지점을 제거한 뒤 적절히 섞었다. 그러자 인간 본연의 유전자가 무작위로 만들어낸 것만큼 자연스러운 얼굴이 탄생했다.

한 때 개와 고양이도 구분하지 못하고, 치와와와 머핀도 구분하지 못하던 인공지능이 드디어 인간을 속일 수 있는 수준에 다다른 것이다.

2. 삼성 네온 www.neon.life

삼성이 출시한 인공지능 인격체 프로젝트. 기존 인공지능 비서의 지능에 현실감 넘치는 외모를 갖고 있으며
궁극적으로 인간과 실시간으로 반응할 수 있는 수준의 디지털 인간을 목표로 삼는다.

삼성의 연구소 중 하나인 STAR Labs에서 만든 디지털 인간 NEON. 이중 누가 진짜 사람일까. 정답은 '한 명도 없다'이다.

가상 인간(virtual human)이나 인공 인간(artificial human)이라고 부르면 현실과는 동떨어진 허구의 존재라는 느낌이 든다. 그래서 요즘에는 디지털 인간이란 용어가 슬슬 보급되고 있다. 디지털 기술로 만들고 디지털 공간에서 실제 인간과 다름없이 인식되고 활동할 수 있는 존재. 삼성이 올해 초 CES2020에서 발표한 디지털 인간 프로젝트 네온을 보면 앞으로 미디어 업계를 벗어나 사회 전체에서 인간이 어떤 대접(혹은 취급)을 받을지 예측해 볼 수 있다.

네온은 삼성에서 세 가지 가치(3R)에 중점을 두고 만든 디지털 인간이다. 현실성 Reaility, 동시성 Real time, 반응성 Responsive. 이 가치들은 네온을 단순히 영화 스크린이나 키오스크 화면 속에 들어있던 가상 인간과 차별성을 갖게 만든다.

시리나 알렉사 같은 음성과 문자 형태의 인공지능 비서는 꾸준히 수준이 향상되고 있다. 아직도 많은 경우 말귀를 못 알아듣고 엉뚱한 소리를 해서 사용자들을 속 터지게 만들지만 기술 발전 속도를 봤을 때 튜링 테스트1)를 통과할 인공지능이 탄생하는 건 물론 적어도 화면 속에서라면 보이트-캄프(Voight-Kampff) 테스트 2)를 통과하여 인간과 구분이 안 되는 수준에 이르는 것도 시간문제일 것이다. 그러려면 먼저 해결되어할 과제들이 몇 가지 있는데 그중 가장 중요한 게 인간의 얼굴을 한 실시간 반응이다. 어떤 명령이 전해졌을 때 처리과정을 뻔히 보여주며 한참만에 답을 찾는 컴퓨터? 그건 당장 폐기되어야 한다. 하지만 인간에게 같은 질문을 던졌을 때는 대답에 뜸을 들이고 한참만에 대답을 한다고 뭐라 하지는 않는다. 그런 모습이야말로 지극히 인간적이니까. 앞으로의 인공지능 비서는 사용자가 기계라고 느끼지 못할 인간미를 보여주어야 한다. 인간미라고 하면 실감 나는 외모나 어색하지 않은 목소리일 수도 있고, 사용자 질문의 맥락을 정확히 파악하는 정밀함일 수도 있고, 질문 이면의 욕구나 감정까지 파악해서 궁극적으로 사용자에게 유익을 주는 다면적 문제 해결 능력일 수도 있다. 네온의 세 가지 가치는 이런 과제를 제대로 파악하고 제시된 걸로 추정된다.

그렇다면 네온이 보급되는 미래사회는 어떤 모습일까.

3. 슈두 SHUDU www.instagram.com/shudu.gram

세계 최초 디지털 슈퍼모델

디지털 모델 SHUDU (@shudu.gram)

슈두 Shudu라는 이름의 모델이 있다. 2017년부터 인스타그램에서 활동하는 흑인 패션모델인데 디지털 인간이다. 자세히 보면 실제 인간이 아니란 걸 금방 알아차릴 수는 있지만 그녀의 사진만 봤을 때는 기존 패션모델의 활동과 큰 차이가 없다는 것을 알 수 있다.

상상해보자. 모델이 밥도 안 먹고 잠도 안 자고, 부당한 근로조건에도 불평 없이 일한다면, 게다가 모두가 ‘선망’하는 체형과 매력적인 개성까지 갖고 있으면서 사생활까지 깔끔하다면? 굳이 패션 기업이나 쇼핑몰 업체들이 몸값 비싼 유명 모델과 협업할 필요가 있을까? 지금이야 디지털 모델들이 사진 위주로만 업로드하고 있지만 기술의 도움으로 동영상도 쉽게 올리고 인공지능의 도움으로 전 세계 모든 언어를 자유자재로 구사하게 되고, 심지어 상품에 맞춰 인종과 체형까지 바꿀 수 있다면? 그 어떤 기업도 그들을 채용하지 않을 이유를 찾지 못할 것이다. 화면 밖으로 나올 수 없다는 단점은 어차피 대부분의 소비자들이 스크린을 통해 정보를 접하고 있는 시대에선 그리 큰 흠이 되지 않을 거란 점을 감안한다면 이 흐름을 막을 도리는 없다.

혁명은 단지 슈퍼 모델, 피팅 모델 업계에서 끝나지 않을 것이다. 이미 수많은 영화 속 위험한 액션 장면은 디지털 더블(스턴트용 CG 캐릭터)의 열연으로 채워지고 있고, 페이셜 모션 캡처를 이용하면 섬세한 감정 연기도 가능한 시대인데 기존의 인간 배우들은 더 이상 무얼로 비교우위를 내세울 수 있을까. 단지 지금은 인간을 고용하는 게 그래픽 작업 비용보다 훨씬 비용이 낮기 때문에 이 구조가 굴러갈 뿐이라고 생각한다. 현재 이곳은 자본주의 사회니까. 이런 미래를 예견한 앤드류 니콜 감독의 <시몬 Simone>은 너무 일찍 나와서 묻힌 게 아닐까 싶다.

자세, 체형, 인종 등을 자유자재로 바꿀 수 있는 디지털 모델들

4. 클로바 더빙 clovadubbing.naver.com

네이버에서 운영하는 음성 합성 기술 서비스. 유료 서비스지만 한시적으로
영상 제작자들에게 인공지능 성우의 목소리를 무료로 쓸 수 있게 허용하고 있다.

영상에 넣을 목소리를 고르는 화면. 다양한 톤으로 말하는 여러 인물이 내가 쓴 자막을 읽어준다.

수십 년 전부터 음성 합성 기술은 꽤 보급되고 있었다. 가장 대표적인 기능이 웹 문서나 전자책의 본문을 소리로 들려주는 TTS(Text to Speech) 서비스다. 녹음된 음절들을 단순하게 입력된 문자 정보에 맞춰 배열하는 방식이기 때문에 누가 들어도 기계가 읽어준다는 느낌이 물씬 났다. 합성음을 만들려면 합성의 근거가 되는 샘플 목소리를 최대한 많이 수집해야 했지만 아무리 많이 녹음해도 애초에 모든 단어의 조합을 발음한 게 아니기 때문에 짜깁기해서 문장으로 만들다 보면 어색한 것은 피할 수 없었다. 당연히 메시지를 전달하는 이상의 목적은 이루기 어려웠다.

음성 합성 기술은 꾸준히 발전해오다가 최근에는 인공지능 딥러닝 기법을 사용하여 이전과 전혀 다른 수준의 결과물을 보여주고 있다. 성우나 실제 인물의 목소리 샘플을 한두 시간 정도만 녹음하고도 모든 형태의 글을 술술 읽게 된 것이다. 물론 아직까지는 진짜 사람처럼 자연스럽게 말하지는 못하지만 적어도 로봇 목소리는 벗어날 수 있는 수준은 되었으니 듣는 사람들의 거부감을 조금을 줄일 수 있을 것이다. 지금도 꾸준히 기술이 향상되고 있으니 진짜 육성과 구분하지 못하는 날도 조만간 도래할 것이다.

얼마 전까진 음성 합성 기술은 사전에 만들어놓은 자료를 읽어주는 데만 쓰였다. 책이나 뉴스 같은 문자 형태의 데이터를 소리로 옮긴다던가 자신의 목소리를 감추고 싶어 기계의 힘을 빌려 팟캐스트나 유튜브용 음성을 녹음하는 등의 영역에서만 제한적으로 사용됐다. 하지만 이제는 인간이 일상에서 말하는 언어인 ‘자연어’ 처리 분야에서도 꽤 쓸만한 수준으로 이용되고 있다. 그중 한 사례가 콜센터 응답 시스템이다.

전 세계 기업들은 고객들의 요청을 전화로 처리하기 위해 저마다 거대한 규모의 콜센터를 운영하고 있다. 수백 수천 명의 사람들이 한 공간에 모여 수많은 사람들의 요구를 듣고 적절한 해결책을 찾고는 있지만 대부분은 단순한 패턴의 반복이다. 고객의 신원을 확인한 뒤 원하는 요구사항에 따라 정해진 교본에 맞춰 적절한 응답을 하면 되는 일이다. 그 과정에서 인간의 뛰어난 두뇌 능력을 사용할 일은 그리 많지 않다. 앵무새처럼 같은 말만 반복하는 전화상담원들은 기계와 다를 바가 없다고 판단한 자본가들은 비용을 절감하기 위해 기술의 힘을 빌리기로 결심했다. 이미 십여 년간 “헤이 시리”나 “오케이 구글” 같은 인공지능 비서를 사용하며 축적된 자료들을 바탕으로 자연어 처리법을 배운 테크 기업과 손을 잡은 것이다. 결과는? 이미 콜센터를 비롯한 많은 분야에서 우리도 모르는 새에 인공지능 응답 시스템을 만나고 있다. (070-7919-0180 에 전화해서 직접 체험해볼 수 있다.)

디지털 인간은 다방면에서 우리 곁으로 다가오고 있다.

이미 미국에서는 전화 예약 시스템에서 사람 목소리를 듣고 업무를 도와주는 인공지능 비서가 활약중이다. 전화 건 사람의 감정까지 판단할 수 있다고 한다. (출처 : google)

각주

1) 튜링 테스트 : 기계에게 지능이 있는지 확인하기 위해 실시하는 문답. 시험자가 상대방이 인간이라고 생각하면 튜링 테스트를 통과했다고 볼 수 있는데 아직까지 특정 분야를 제외하고는 높은 수준의 테스트를 통과한 인공지능은 없는 것으로 알려져 있다.

2) 보이트-캄프(Voight-Kampff) 테스트 : 영화 <블레이드 러너>에 나온 인조인간 구별법. 지능을 확인하는 것을 넘어 ‘감정 반응/이입 능력’까지 테스트하기 때문에 인간이라고 판정받기는 하늘의 별따기다.

참고하면 좋을 사이트

GAN 참고자료 : https://dreamgonfly.github.io/2018/03/17/gan-explained.html

디지털 모델 사례 : https://vrroom.buzz/vr-news/fashion/18-virtual-model-innovations

클로바 더빙 유튜브 채널 https://www.youtube.com/channel/UCUuTYvmFcwOg06KnH5xx2sQ/featured

음성 합성 체험 사이트 (네이버 클로바) : https://clova.ai/voice

음성 합성 사례 (카카오) : https://www.kakaobrain.com/blog/109

영상제작자를 위한 클로바더빙 서비스 : https://clovadubbing.naver.com

keyword

주일 소속 리플레이픽처스 직업 크리에이터

영화와 그밖의 영상을 만들고, 만드는 법을 가르치고, 그에 대해 글 쓰고, 컨설팅을 하고 삽니다. 아, 여행과 첨단 기술도 좋아합니다. https://litt.ly/director

팔로워 102

매거진의 이전글게임은 영화의 미래다지겹고 뻔한 프레임을 벗어나자매거진의 다음글