딥페이크로 인한 가짜 영상의 남발
2023년을 놀라게 했던 ChatGPT는 너무나 자연스럽고 전문가 뺨치는 글솜씨를 자랑했다. 글만 봐서는 사람이 쓴건지, AI가 생성한 것인지 알아챌 수가 없다. 그렇다보니 소설가, 시인, 구성작가, 칼럼니스트 등의 글쓰는 사람들은 일자리가 사라질까 두려움에 떨고, 보도자료 작성이나 보고서 작성, 홍보 문구 작성하는 사무직 직장인은 환호했다. 그런 AI 기술은 글 뿐만 아니라 번역, 통역, 코딩 등 다양한 작업을 돕는데 활용되며 업무 생산성을 높여주는 도구로서 각광받고 있다.
그런데, 이 AI가 그림을 만들고 사진을 생성하며 동영상과 음성까지도 만들어내면서 사회의 공포는 극에 달하고 있다. 사진을 생성해주는 미드저니나 달리3도 갈수록 화질이 좋아지고 실제 사진만큼 진짜같다. 무엇보다 달리는 ChatGPT에 통합되어 제공됨으로써 사용성이나 접근성이 뛰어나다. 별도의 사용법을 익히지 않고도 누구나 텍스트 명령만으로 상상하는 것을 그림으로 만들 수 있다. 전문적인 프롬프트없이도 생각나는대로 원하는 이미지를 읊으면 사진으로 생성되는 것이다.
게다가 ChatGPT에서 2월에 발표한 Sora라는 동영상 생성 서비스는 기존의 AI가 만든 영상보다 더 사실적이다. 우리가 사는 현실의 물리법칙을 이해해 영상을 만들어주기 때문에 더 자연스럽게 영상을 만들 수 있다. 또한, 알리바바는 EMO(Emote Portrait Alive)는 사진만으로 말하는 동영상을 만들어주는 생성형 AI를 발표했다. EMO는 Audio to Video 기반의 생성형 AI로 사진과 음성 파일을 입력하면 오디오 파일 내 음성에 맞춰 사진 속 인물의 입 모양과 얼굴 표정을 조정해 동영상으로 만들어준다. 입력된 음성의 내용에 맞게 표정의 미묘한 변화를 포착해서 자연스러운 결과물을 생성한다는 것이 특징이다.
또한, KT의 AI 보이스 스튜디오를 이용하면 특정인의 목소리오 똑 닮은 보이스를 제작할 수 있다. 물론 다양한 나라의 언어로도 음성합성이 가능하다. 내 목소리는 물론 다른 사람의 음성을 샘플로 넣으면 그 목소리와 닮은 목소리로의 합성이 가능한 셈이다. 스크립트를 아나운서의 또렷한 발음으로 생성할 수 있다. 물론 실제 아나운서가 그 스크립트를 읽고 녹음하는 수고없이도 AI로 그 즉시 스크립트를 아나운서의 목소리로 생성할 수 있는 것이다.
이렇게 기술은 갈수록 고도화되고 있다. 그런데, 사실 수 년전부터 이러한 기술은 이미 존재했다. 다만, 아무나 사용할 수 없었을 뿐이다. 사용하기에는 비용도 비싸고, 오랜 시간이 걸리며, 해당 기술을 제공하는 솔루션 기업을 찾아 여러번의 협의를 해가면서 작업을 해야 하는 일이었다. 하지만, 이제는 달라졌다. 이런 기술들은 전 세계 누구나 사용 가능하다. 아무나 쉽게 사용해 진짜같은 사진과 영상들을 단숨에 만들수 있게 되었다. 그로 인해 만들어지게 될 수 많은 가짜 영상들이(딥페이크) 우리 사회를 혼란스럽게 할 수 있다.
이미 인스타그램과 유투브, 틱톡에 올라오는 사진과 영상을 통해 우리는 세상 소식을 보고 듣고 있다. 그런 영상에는 사실을 호도하고 가짜로 만든 콘텐츠로 편견과 갈등을 부추기고 있다. 그런데, 쉽사리 진위를 가릴 수 없고 가짜를 진짜처럼 보이게 해주는 콘텐츠들이 더 해져 사회 혼란을 더욱 커질 수 있게 되었다. 누구나 사용할 수 있는 핵폭탄은 우리 지구를 멸망시킬 수 있는 것처럼, 아무나 사용 가능한 생성형 AI는 우리 사회를 깊은 혼란의 도가니로 만들 수 있다.
이제 우리 사회는 특이점이 온 이 AI 기술이 사회에 악이 되지 않도록, 악인들이 이 기술을 남용, 오용, 악용하지 않도록 감시와 규제, 안전 장치를 마련해야 한다. 고삐 풀린 망아지가 온 집안을 헤집고 다니지 않도록 사회 안전망을 고려해야 한다.