brunch

매거진 손에 잡히는 인공지능 시리즈

라이킷 21 댓글 2

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 서진호 Sep 27. 2021

인공지능을 통한 콘텐츠 제작 기술의 진보와 전망

1인 미디어 산업 동향 웹진 Vol. 3 9월호

들어가며

최근 몇 년 동안 방송 콘텐츠 환경이 크게 바뀌었다. 유튜브 개인 방송과 다양한 국내와 해외 OTT 서비스에서 제공되는 드라마 영화 산업은 공영 방송 체제로 이루어지던 지상파 위주의 독점 체제를 깨뜨리고 새로운 채널 경쟁자로서 자리 잡고 있다. 따라서 지상파 방송국들은 자본력을 앞세워 가상 현실이나 증강현실 등 최첨단 기술들을 콘텐츠 제작에 적극적으로 끌어들여 더욱더 화려한 그래픽으로 시청자와의 상호작용을 시도하고 있다. 또한 방송 및 미디어산업에서 점점 더 많은 제품과 도구들이 인공지능(AI, Artificial Intelligence)과 머신러닝(ML, Machine Learning)을 받아들여 사용하기 시작했다. 처음에는 반복적인 작업을 자동화하는 데 중점을 두었지만 인공지능을 이용한 콘텐츠 제작 기술 통합은 많은 작업들을 혁신의 문으로 이끌고 있다.

방송 미디어 및 엔터테인먼트 콘텐츠 편집에 진출한 인공지능

2020년부터 인공지능이 모호한 최첨단의 유행어에서 일반화되고 상품화되면서, 방송 산업은 새로운 여정을 시작하는 해가 되었다. 사실 인공지능의 전환은 2017년부터 대대적인 관심을 끌었고 이후 과대광고 사이클의 궤도를 달렸다. 이러한 미디어 및 엔터테인먼트 산업 분야(M&E) 생태계를 분석한 가트너(Gartner)는 디지털 전환과 인공지능이 어떤 단계에 접어들었는가 살펴보았다. 이에 따르면 2017년에는 1단계인 ‘인식’ 밖에 되지 않았지만, 인공지능이 방송 업계를 삼킨다는 과대 포장에 업계가 사로잡혔다. 그러나 2021년에는 제품 최적화 또는 제품/서비스 혁신을 통해 가치를 창출하는 프로덕션의 인공지능으로 ‘전환’ 하는 5단계 시기로 접어들었다.

[그림 1-1] AI 성숙도 모델 (출처: 가트너)

이렇게 인공지능을 M&E 산업 분야에서 활용할 수 있게 된 계기는 모든 콘텐츠를 거침없이 디지털화하고 있기 때문이다. 이것을 통해 시청자들에게 좀 더 개인화된 양질의 콘텐츠를 제공하게 되었고, 해가 거듭될수록 디지털 수익은 M&E 산업분야에서 더 큰 비중을 차지하게 되었다. 그러면, 콘텐츠 편집에 진출한 인공지능에 대해 새로운 쟁점 들을 살펴보도록 하겠다.

첫째, 보도 방송 편집 분야에서 현재 인공지능에 요구되는 주요 기능은 논평 또는 인터뷰 음성의 텍스트 변환, 얼굴 인식, 감정 분석 및 장소 인식과 같이, 기존 콘텐츠에서 더 많은 콘텍스트를 제공하기 위한 자동 메타데이터의 강화이다. 만일 이 모든 정보를 기록할 사람들을 고용한다면 비용이 많이 들어갈 것이다. 하지만, 이런 반복적이고 복잡한 작업을 인공지능을 통해 자동화하면 제작팀이 태그 지정과 같은 지루한 편집 작업이 아닌 콘텐츠 가치창출에 더욱더 집중할 수 있게 된다. 따라서 인공지능은 가치 사슬의 자동화 측면에서 계속 성장하고 있다. 또한 메타데이터 강화 뿐만 아니라 업무절차 조정, 오류 예측, 소비자 통계 및 광고 관리 등의 측면에서도 도입하고 있다.

[그림 1-2] 인공지능을 이용한 사용하지 않는 콘텐츠 라이브러리에 태그 표시 및 편집 (출처: 큐리오)

둘째, 다양한 인공지능 기술을 결합하여 측정 가능한 최종 사용자 가치를 창출함으로써, 보다 장기적인 연구개발(R&D) 중심의 접근 방식을 도입해야 한다는 것이다. 이를 위해 기존 방송 서비스에 인공지능을 통합할 수 있는 인공지능 혁신 기술 전담 팀이 필요하다. 방송의 경쟁력을 강화하기 위해서는 시청자에게 필요한 새로운 기능과 더 효율적인 운영, 향상된 창의성을 제공해야 하며, 기존의 기술로는 달성하지 못한 것을 달성할 수 있도록 해야 한다. 따라서 이러한 인공지능을 도입하기에 예산이 부족한 중소기업 케이블 채널들에게는 정부 차원의 지원이 필요하다.

셋째, 인공지능에 대한 인식 변화가 무엇보다도 중요하다. 예를 들어, 디지털 방송 콘텐츠를 제작하는 초기 단계에서 공중파 텔레비전 방송국의 기술 허브인 마스터 컨트롤이나, 방송 촬영 콘텐츠에 대한 메타데이터 기록 및 수집 등, 시간과 자원이 많이 필요한 작업에 인공지능을 적용하는 것이 운영자에게 효과적일 수 있다. 인공지능을 이용하면 뉴스룸에서 앵커를 위한 영상을 준비하는 것과 같은 작업들을 극적으로 빨리할 수 있게 된다.

또 다른 인공지능 사례인 어도비 센세이와 같은 도구는 크리에이티브가 비디오 제작 과정의 속도를 높이는 데 도움을 줄 수 있다. 신속하게 장면을 일치시키는 기능은 색 보정(Color grading) 작업의 고통을 덜어주어 컬러리스트가 대조, 색조, 채도, 블랙 레이블 및 화이트 포인트와 같은 이미지의 다양한 속성을 동영상, 비디오 또는 정지 이미지에 반영하는 처리 속도를 향상시킬 수 있다.

결국 방송 환경에서 보게 될 인간 중심의 작업은 궁극적으로 풍부한 스토리텔링으로 이어지는 창의적인 작업이기 때문에, 인공지능이 ‘최후의 보루’가 아닌 기획 단계부터 적극적으로 활용할 수 있는 ‘최초의 아이디어’로 인식을 바꿔야 한다. 더 많은 콘텐츠와 개인화된 시청 경험을 생산해야 한다는 초기의 아이디어는 콘텐츠 소유자, 방송사 및 미디어 회사에게 운영 업무절차 내에서 효율성을 높이는 인공지능 솔루션을 탄생시킬 것이다.

프레임 속에 들어가는 인공지능과 비디오 코덱 압축

머신러닝은 음성-텍스트 캡션을 자동화하거나 저장 비용을 줄이기 위해 미디어 및 엔터테인먼트 분야에 제일 먼저 진출했다. 또한 최근에 온라인 동영상 스트리밍 업체가 이렇게 큰 압박을 받은 적이 없다. 인터넷 속도가 느린 시청자들에게 인공지능을 이용하여 지능적으로 용량을 압축해 주는 비디오 코덱 압축 알고리즘이 무엇보다도 중요해졌기 때문이다.

현재 폭발적으로 이용자가 늘고 있는 넷플릭스, 유튜브 및 디즈니 플러스 서비스들은 인공지능을 이용하여 대용량 동영상 크기를 압축하고 있다. 동영상을 한 번에 전송하지 않고 여러 개로 작게 나눈 다음 대역폭을 조정하여 사용자들의 컴퓨터 환경에 맞게 지능적으로 영상을 보여줄 수 있게 되었다. 하지만 무선 네트워크가 없는 지역에서 기존의 LTE보다 좀 더 빠른 5G가 보편적으로 사용될지라도 영상 스트리밍 대역폭을 조정하는 것은 기존 기술로는 쉬운 일이 아니다.

예를 들어, E-스포츠 스트리밍 운영자가 어떻게 십만 개에서 백만 개의 동시 라이브 채널로 확장하고 동시에 더 선명한 UHD 화질로 전환할 수 있을까? 기존 기술 범위 안에서는 더 좋은 품질과 효율성을 갖춘 새로운 코덱을 사용함으로써 해결할 수 있다. 그러나 현재 방송 콘텐츠 업계는 전통적인 개발 방법이 한계에 다다랐음을 깨달았다.

트랜스코딩 처리는 영상 및 오디오 파일 또는 캡션과 같은 문자열을 인코딩한 디지털 원본 소스에서 다양한 형태의 디지털 포맷으로 직접 변환해 주고, 영상 내의 객체 사물들을 제작 규칙에 따라 디지털 보정을 자동적으로 해 준다. 이러한 비디오 코딩의 기본 개념은 1970년대부터 시작하여 1980년대에 개발되었고, 기본적인 비디오 코딩 표준인 MPEG-1도 이미 1990년대 초반에 업계 전반에 걸쳐 구현되었다.

그 이후로 점진적인 개발, 컴퓨팅 리소스, 전력 및 메모리를 사용한 최적화가 있었지만, 현재 더 나은 성능을 얻기 위해서는 인프라를 최적화할 수 있는 다른 방법이 필요하게 되었다. MPEG8)이 추구하는 '차세대' 몰입형 애플리케이션인 VVC 코덱조차도 HEVC 코덱에서 한걸음 더 나아간 것에 불과하다.

1988년 H.261 코덱을 사용한 이후, 모든 주요 비디오 코딩 표준의 기본 개념인 블록 기반 하이브리드 비디오 코딩 방식을 여전히 사용하고 있다. 이 개념은 비디오의 각 프레임을 블록으로 분할한 다음 모든 블록을 순서대로 처리하는 것이다.

한계에 도달한 것은 비디오 코딩 만이 아니다. 실리콘 칩의 물리적 용량도 마찬가지이다. CPU 및 GPU 코어, DSP 및 FPGA 와 같은 범용 실리콘을 사용할 수 있는 애플리케이션에 대한 요구 사항이 점점 더 많아지고 있다. 동시에 볼류메트릭 비디오와 같은 새로운 유형의 데이터가 빠르게 등장 하고 있다.

방송사와 운영자의 관점에서 비디오 코딩 및 실리콘 칩의 물리적 용량을 최적화할 수 있는 해결책은 영상 스트림을 인코딩 하기 위한 클라우드 서비스에 전용 하드웨어 데이터 센터를 이용하는 것이다. 이와 더불어 저렴한 클라우드 환경의 동영상 저장 공간과 미디어 서비스를 이용하는 것 역시 추가적인 방법이 될 수 있다. 다시 말해서, 본질적으로 동일한 동영상 범주와 동영상 간의 관계를 구성하는 공통 패턴 스키마를 유지시키는 데에 일부 AI 모듈을 사용하는 것이다.

[그림 1-3] V-노바사의 AI 기반 코덱 VC-6

하지만 비디오 코드를 해독하는 데에는 기존의 틀을 근본적으로 바꾼 머신러닝을 활용하여 수학적으로 모델링 하기 어려운 다차원 문제를 해결할 수 있다. 일례로 V-노바(V-Nova) 회사는 기존 스키마를 버리고, 신경망 설계를 바탕으로 종단 간 딥러닝을 사용한 AI 기반 코덱을 최초로 개발하여 최적화 문제를 해결했다([그림 1-3] 참조).

V-노바 회사는 비디오 분석 제공 업체인 메탈리쿼드(Metaliquid)와 협력하여 현재 VC-6 코덱으로 지정된 영상 코덱의 처리 솔루션을 구축했다. 참고로 인공지능을 이용한 VC-6을 사용하는 방송국들은 알 자지라(Al Jazeera), AP 통신(Associated Press), RTÈ(Raidió Teilifís Éireann)와 같은 방송 미디어사들이다. 그뿐만 아니라 VC-6코덱은 AI 기반 메타데이터 콘텐츠 인덱싱의 속도를 높이고 방대한 아카이브를 보유하고 검색하는 데 도움을 주고 있다.

요약하자면, 기존의 비디오 코덱은 텔레비전, PC, 스마트폰 등 다양한 변화된 환경일지라도 단일 장치의 소프트웨어에서만 사용할 수 있도록 해준다. 만일 하나의 다른 하드웨어 장치에서 비디오 콘텐츠를 전송하려면 수동적으로 코덱을 다시 변환해 주어야 한다.

그러나 VC-9과 같은 딥러닝 인공지능은 각각 비디오 영상에 대하여 신경망 네트워크를 이용하기 때문에 최적의 비트 압축률 및 인코딩 환경 구성을 운영자에게 제공하여 영상 배포를 최종 사용자의 환경에 맞게 자동적으로 설정해 준다. 따라서 인터넷 속도가 느린 시청자들에게 지능적으로 비디오 용량을 압축해 주어 다른 하드웨어 장치 환경일지라도 동일한 사용자 환경에 맞게 전송하는 장점을 가진다. 추가적으로 텔레비전, 퍼스널 컴퓨터뿐만 아니라 스마트폰 등 다양한 환경에서 타이틀별 또는 장면별 단편 비디오 콘텐츠를 볼 수 있다.

사람 목소리를 닮은 인공지능 성우

새로운 수많은 스타트업들 또한 딥러닝을 사용하여 디지털 비서, 비디오 게임 캐릭터, 기업 비디오 및 방송 아나운서용으로 음성을 합성하여 사용할 수 있는 인공지능 성우를 만들고 있다. 이 인공지능 성우는 더 이상 로봇 기계 음으로 교묘하게 합성한 형태가 아닌 사람과 똑같은 목소리로 성별 및 스타일에 따라 다양한 사람의 음성 데이터로 학습시킬 수 있다.

예를 들어, 미국 시애틀에 있는 비영리 인공지능 연구소인 웰사이드 랩스(Wellsaid labs)는 8명의 새로운 디지털 성우를 만들었다. 그 성우들에게 이름을 부여했는데, 그중 토빈(Tobin)은 에너지가 넘치고 통찰력이 있는 목소리로, 페이지(Page)는 태세 있고 표현력이 있는 목소리로, 아바(Ava)는 세련되고 자신감이 넘치며 전문적인 냄새가 나는 다양한 목소리로 학습시켰다.

[그림 1-4] 웰사이드 랩의 인간 목소리로 AI 아바타 생성

각각의 목소리는 인공 지능을 사용하여 동의하에 유사성이 보존된 실제 성우를 기반으로 한다. 음성 엔진에 원하는 텍스트를 입력하기만 하면 자연스럽게 들리는 선명한 오디오 클립을 만들 수 있다. 현재는 기업 E-러닝 비디오 음성에 디지털 성우들의 목소리들을 전문적으로 사용하고 있다.

얼마 전까지만 해도 딥페이크 음성은 사기 전화와 인터넷 속임수로 악명이 높았다. 그러나 인공지능 음성 녹음의 품질 향상은 성우가 녹음하는 방식 보다 저렴하고 확장이 가능하며 작업하기 쉽기 때문에 점점 더 많은 회사에서 관심을 불러일으켰고, 최근 딥러닝의 획기적인 발전으로 인간의 미묘한 어감까지도 그대로 복제할 수 있게 되었다.

또 하나의 예로 소낸틱IO사(Sonantic IO)는 비디오 게임 캐릭터의 목소리를 만들고 있다. 게임 시나리오 스크립트를 오디오로 빠르게 변환하여 제작 일정을 몇 달에서 몇 분으로 단축했다. 사용자는 음성 성능 매개변수를 완벽하게 제어하여 표현력이 뛰어나고 뉘앙스가 있는 목소리를 만들 수 있다. 또한 인공지능을 사용하여 세 줄 정도의 짧은 대화에 대해 텔레비전 진행자의 목소리를 흉내 낼 수 있다. 이처럼 다른 신생 스타업들도 디지털 비서, 콜센터 운영자, 심지어 비디오 게임 캐릭터까지 목소리를 생성하여 서비스 출시를 서두르고 있다.

물론 인공지능 성우에 대해 찬성하는 입장만 있는 것은 아니다. 한 배우 조합에서는 배우가 공정한 보상을 받거나 브랜드와 평판을 구성하는 목소리에 대한 통제력을 상실하는 것에 대해 우려했다. 최근에는 틱톡 앱에 내장된 ‘보이스오버(VoiceOver)’ 기능에 인간성우의 허락 없이 음성 합성 사본을 사용하고 있다고 캐나다의 한 성우가 틱톡을 상대로 소송을 제기했다.

또한 수백만 대의 애플 기기에서 목소리를 계속 사용한 대가가 아니라 초기 녹음 비용만 지불한 미국 시리(Siri)의 원래 목소리인 수잔 베넷의 경우도 있다. 성우 녹음에 대한 사용자 라이선스의 범위가 음성 녹음한 문장들로만 국한시킬지 아니면 인공지능이 확장한 내용까지 포함할지 대법원의 판결이 현재 필요한 시점이다. 또한 인간 성우의 녹음 방식과 인공지능으로 합성한 음성 방식이 사람들이 구분하기가 쉽지 않은 것이 논쟁의 쟁점이 될 것이다.

인공지능을 이용한 실감 나는 실시간 영화/드라마 제작

만일 1,500만 달러가 있다면, ‘더 만달로디언(The Mandalorian)’ 드라마와 동등한 35분짜리 VFX 기반 드라마를 만들 수 있을 것이다. 그러나 대부분의 제작자들은 그 예산으로 전체 시리즈를 제작할 것이다. 디즈니 플러스가 2019년부터 인공지능을 이용하여 제작한 실시간 드라마는 업계를 놀라게 했다.

이 드라마는 최근 코로나 바이러스 확산 상황에서 가장 안전한 라이브 액션 프로덕션의 한 형태이며, 가상 프로덕션에서 촬영되어 제작비를 크게 줄였다. 예를 들어, PXO(Pixomondo)는 ‘더 만달로디언’ 시리즈에서 VFX를 이용한 많은 장면을 만들어 시리즈에 기여했다. 외계 생명을 표현하는 데 도움이 된 일부 생물을 포함하여 [그림 1-5]에서 보듯이 다양한 장면을 컴퓨터 그래픽으로 작업하여 창조해냈다.

[그림 1-5] 더 만달로디언의 VFX 스튜디오 촬영

가상 프로덕션에서의 제작 편집 또한 인공지능을 이용한 시각적 효과 작업을 많이 수행할 수 있다. 인공지능은 조명이나 렌더링과 같은 영역에서도 촬영하는 장면에 맞게 환경 설정을 추천해 준다. 또한 높은 천장에 방음을 한 음향 무대와 물체나 사람의 움직임을 기록하는 모션 캡처에서의 성능을 향상시킬 수 있도록 인공지능의 컴퓨터 비전 분야를 활용할 수 있다. 드라마나 영화 촬영 외에도 방송, 기업 커뮤니케이션, 광고 및 이벤트 전반에 걸쳐 가상 프로덕션 세트에 대한 수요가 급증하고 있다.

애니메이션 업계에서도 인공지능이 스스로 애니메이션을 그리는 애니메이터를 대체하는 것이 아니라 애니메이터가 다음 단계로 수준을 끌어올릴 수 있게 만들어 준다. 왜냐하면, 인공지능은 애니메이터가 손수 작업할 때 많은 좌절감을 주는 반복 작업을 단순화하여 작업을 가속화시켜 주기 때문이다. 따라서 애니메이터의 창의적인 잠재력을 최대한 빨리 표현하는 데 도움을 준다.

생동감과 몰입감을 집중시키는 라이브 스포츠 제작

한편, 다양한 라이브 스포츠를 제작하는 스포츠 프로덕션에서 인공지능의 역할도 서서히 증가하고 있다. 전 세계 스포츠 팬들이 TV와 디지털 채널을 통해 더 많은 라이브 스포츠 콘텐츠를 요구함에 따라, 호크아이 이노베이션(Hawk-eye Innovations) 회사는 소니(SONY)와 협력하여 라이브 프로덕션 업무절차를 지능적으로 간소화하고, 출력 품질에 영향을 주지 않으면서 라이브 스포츠 프로덕션 비용을 크게 줄이는 솔루션을 개발했다. 그 솔루션 안에 라이브 스포츠 방송을 송출하는 대규모 데이터셋에서 다양한 특징들을 추출하여 현장에서 뛰는 선수들을 추적하거나 예측함으로써 스포츠 시청을 축구장에서 실제로 보는 것과 같이 생동감 있게 몰입시키는 효과를 보고 있다.

예를 들어, 윔블던 2018에서 IBM 왓슨 기반 시스템은 전 영국 잔디 테니스 및 크로켓 클럽(AELTC)를 위한 1천 시간 분량의 장면에서 7만 5천 개 이상의 개별 지점을 잘라내어 하이라이트 처리 시간을 45분에서 5분으로 압축했다. 또한 인공지능은 선수들의 표정을 기반으로 감정 분석을 수행할 수 있으며, 군중 소음을 분석하여 테니스코트 내 선수들의 플레이에 대한 반응을 순위로 매길 수 있는 기능도 포함시켜 시청자에게 다양한 볼거리를 제공했다.

스포츠 경기뿐만 아니라 비디오 보조 심판 시스템인 제브라(Xeebra)에도 인공지능이 도입되었다. 딥러닝을 사용한 비디오 보조 심판(VAR) 시스템은 축구 경기에서 3D 화면으로 오프사이드라인 축구 경기 규칙을 시청자에게 제공하는 데, 3D 그래픽을 카메라에 영상을 정확하게 반영하여 경기장 영상을 지능적으로 보정한다. 따라서 축구 심판들에게 더 빠르고 정확하며 사용하기 쉬운 심판 도구를 제공하고 있다.

[그림 1-6] 제브라 AI 시스템을 활용한 3D 오프사이드 판정 장면

좀 더 기술적으로 설명하자면, 이 제브라 시스템은 2020년 미국 방송 협회(NAB)에서 인공지능 기반 기술을 사용하여 중간 이미지를 생성하는 응용 프로그램을 선보였다. 이 응용 프로그램은 고속 카메라로 촬영한 일반 속도보다 32배 느린 속도의 영상을 제공하여 사람이 볼 수 없는 순간을 포착할 수 있다. 이러한 슈퍼 모션 영상은 축구 심판들이 한눈에 오프사이드인지 아닌지를 식별할 수 있게 해주었다.

라이브 스포츠 프로덕션의 또 다른 측면은 스포츠 데이터 수집에 대한 정보 선별 능력을 인공지능 서비스로 제공하는 것이다. 아마존 웹 서비스(AWS) 및 다른 클라우드 서비스 업체들이 점점 더 많은 인공지능 서비스를 제공하고 있기 때문에 방송 산업 공급업체가 이러한 서비스를 이용할 수 있게 되었다.

전미 스톡 자동차 경주 협회(NASCAR)는 아마존 레코그니션(amazon rekognition)을 사용하여 자동차, 랩 타임, 자동차 운전자 경력 등을 참조하는 메타데이터를 포함한 총 18페타 바이트의 비디오를 자동 태그하고 레이블을 지정하였다. 이를 통해 시청자들에게 다양한 자동차와 선수 경력 등의 정보를 제공하고 있다.

이러한 서비스를 통해 인공지능의 학습 데이터로 비디오 영상을 사용하거나 비디오 영상을 직접 조작할 수 있다. 현재 모든 인공지능 및 머신러닝 시스템은 스스로 데이터를 증강시키거나 사람이 수동적으로 훈련시킬 수 있는 옵션을 제공하고 있다.

MZ 세대를 위한 비디오 게임과 영화의 융합 시도

가상 프로덕션 기술과 더불어 페이스북과 애플, 마이크로소프트와 같은 회사가 가까운 시일 안에 더 가볍고 좋은 품질의 가상현실 및 증강현실 안경을 개발하여, 이후에는 별개 산업으로 여겨졌던 영화와 게임 분야 간의 경계가 흐려질 것으로 전망된다. 동시에 콘텐츠 업계에서는 애니메이션, TV, SNS와 같은 다양한 미디어 지적 재산권(IP)을 메타버스에 새로운 스토리 세계를 구축하기 위해 이용하고 있다.

흥미로운 점은 이러한 경향이 실리콘 밸리의 첨단 기술과 콘텐츠 스토리텔링의 결합에 기여하고 있다는 것이다. 실리콘 밸리의 첨단 기술인 대화형 인공지능 덕분이다. 대화형 인공지능은 인공지능, 메시징 응용 프로그램 및 음성 인식을 이용하여 사람들이 자연스럽고 개인화된 방식으로 사용자와 대화를 하거나, 사용자가 특정 시나리오를 선택하면 그 선택한 방향대로 이야기의 흐름이 전개되는 방식이다.

[그림 1-7] 넷플릭스의 밴더스내치 내에서 시청자가 영화 주인공의 답변을 선택하는 장면

넷플릭스는 모바일에 중점을 둔 ‘블랙미러: 밴더스내치’와 같은 양방향 TV 실험을 기반으로 새로운 게임 부문에 최초로 발을 내디뎠다. 이 게임은 MZ 세대의 청소년과 젊은 층에 큰 인기를 끌었다. 넷플릭스는 앞으로 다른 업체들과 차별화하기 위해 지적 재산권에 집중할 계획이라고 발표했다. 훌륭한 스토리라인과 놀라운 캐릭터를 만드는 사업을 중점적으로 개발한 결과, 이용자들이 팬덤 문화와 커뮤니티를 형성함으로써 신규 가입자 증가와 기존 가입자들의 만족도를 향상시키고 있다.

또한 기존 미디어 산업에서 드라마 제작도 혁신적으로 전환되고 있다. 이미 만들어진 영화를 인공지능 칩이 들어간 홀로렌즈2(Hololens)나 오큘러스(Oculus)와 같은 혼합 현실(XR)용 콘텐츠로 만들 뿐만 아니라 새로운 형태의 영화와 TV, 게임과 애니메이션 등을 하나로 합쳐 콘텐츠를 생성하는 시도를 하고 있다.

한 사례로 미국 아카데미상과 영국 아카데미 필름 상(BAFTA)을 수상한 아시프 카파디아(Asif Kapadia)의 혼합 현실 프로젝트를 들 수 있다. 애니메이션 스튜디오와 함께 그래픽 소설인 ‘레이카’를 애니메이션 가상현실에 적용하는 것이다. 시청자가 레이카와 함께 지구를 여행하며, 때론 도구들을 훈련하고, 마침내 우주에 실제로 있다고 믿게 만드는 것이다. 이 영화를 통해 남녀노소를 불문하고 더 많은 관객들이 새로운 형태의 영화와 기술을 경험할 수 있을 것이다.

궁극의 메타버스를 제작하는 가상 프로덕션

혼합 현실, 가상 프로덕션, 인공지능 스토리텔링 및 컴퓨터 게임은 모두 메타버스 하나로 합쳐지게 될 것이다. 국내에 곧 동영상 스트리밍 업체로 진출할 예정인 디즈니 플러스는 스타워즈의 은하계를 무대로 영화에 등장한 인물들, 혹은 그들의 먼 선조들이나 먼 후예의 이야기들을 계속해서 확장해 만들고 있다.

또한 SF, 신화, 판타지, 외계인, 마법, 초인, 초능력, 우주적 존재가 존재하는 방대한 평행우주 세계관 내에서 펼쳐지는 마블 코믹스의 콘텐츠 세계관은 다양한 캐릭터 등장으로 오늘날에도 계속 건설되고 확장되고 있다. 이 세계관은 지금으로부터 앞으로 수십 년이 지나야 결말을 볼 수 있는 훨씬 더 넓은 스토리이기도 하다. 그러한 세계관 스토리는 기존의 영상 촬영 방법을 이용하지만, 이미 다양한 메타버스 방식으로 경험할 수 있다.

예를 들어, 사람들이 가상공간에 모이는 포트나이트는 게임이지만 게임 플레이만 하는 것은 아니다. 아바타 지향적인 3차원 공간에서 게임 유저들끼리 서로 만나서 함께 이야기하고 즐길 수 있다. 이러한 사용자 경험은 디지털 및 물리적 세계, 사설 또는 공용 네트워크에 걸쳐 있으며, 데이터, 디지털 항목과 자산, 콘텐츠의 전례 없는 상호 운용성을 기반으로 한다.

[그림 1-8] 언리얼 엔진과 모션 컨트롤러, 실시간 프리뷰 시스템을 갖춘 가상 프로덕션 환경

스웨덴에 위치한 스틸러 스튜디오(Stiller Studio)는 세계에서 가장 기술적으로 발전된 VFX 스튜디오 중 하나이다. 이 스튜디오는 언리얼(Unreal) 게임 엔진을 통해 사전에 조명을 설치한 거대한 그린 스크린 공간과 고급 모션 제어 및 모션 캡처 장비를 촬영 감독에게 제공한다. [그림 1-8]에서 보듯이, 영국 런던에 있는 마크 로버츠는 모션 컨트롤에서 카메라를 1~2미터 이동하기 위한 작은 로봇을 구입했으며, 4.6톤의 무게와 최대 6미터까지 도달할 수 있는 사이클롭스(Cyclops) 모션 제어 촬영 장비를 추가시켰다.

또 한편으로는 에픽 게임즈, 엔비디아 및 애플과 같은 기술 회사는 모두 메타버스의 지분을 소유하기를 원하고 있다. 콘텐츠 소유권 업체인 비아컴 CBS도 현재 175개국을 통해 약 3억 5천만 가구에서 방송되고 있는 세계 최대 규모의 키즈 엔터테인먼트 어린이 채널인 ‘니켈로디언’부터 ‘스타 트랙’에 이르는 애니메이션과 TV 드라마, 쇼 자산을 새로운 형태의 시각 컴퓨팅과 연결할 수 있는 방법을 모색하고 있다.

향후 가상 프로덕션으로 제작한 모든 콘텐츠들은 새로운 가상 현실과 증강 현실 장치를 통해 시청자들을 엔터테인먼트 세계의 홀로데크(HoloDeck)로 데려가 다양한 경험을 제공할 것이다. 홀로데크란 텔레비전 시리즈인 스타트랙의 가상 현실의 3D 시뮬레이션을 만드는 장치를 말한다. 홀로데크는 홀로그램을 보여주는 데, 두 개의 레이저광이 서로 만나 일으키는 빛의 간섭 현상을 이용하여 입체 정보를 기록하는 기술이다. 여기서 참가자는 환경, 사물 및 캐릭터, 때로는 미리 정의된 환경과 자유롭게 상호 작용할 수 있다.

마치며

메타버스는 새로운 컴퓨팅 플랫폼 또는 콘텐츠 매체로 수조 달러의 가치를 창출할 수 있다. 대부분의 디지털 경험, 모든 물리적 경험의 핵심 구성요소, 차세대 제작 플랫폼으로 가는 관문이 될 것이다. 올해 들어 국내에 더욱 더 메타버스 바람이 불고 있다. 네이버의 제페토에서 아바타를 이용한 블랙핑크 가상 팬 사인회와 버추얼 아이돌로 데뷔한 SM 엔터테인먼트의 에스파, 포트나이트에서 BTS 콘서트 등 새로운 시도와 더불어 각종 전시회, 쇼핑몰 등 M&E 산업이 점점 더 최첨단 IT와 결합하는 모양새이다.

그동안 전통적인 지상파 방송 영상 콘텐츠 시장의 구조와 생태계 가치 사슬을 살펴보면 크게 ‘기획-제작-송출-유통’ 부문으로 나뉘며, 각각의 가치사슬 단계에서 나타나는 특징이나, 행위, 투입 요소가 달랐다. 한편, 빅데이터와 인공지능의 발전은 인간의 창의적 역할을 대체하기보다는 보완할 가능성이 높다.

즉, 작가의 창작 영역에서 인공지능이 반복적이고 인간이 하기 어려운 작업들을 빠른 시간 내에 도와줄 뿐만 아니라 그동안 시도해 보지 못했던 영상 콘텐츠를 제작함으로써, 전체 M&E 시장의 변화가 불가피할 것으로 보인다. 더욱이 해외 스트리밍 업체들의 상당한 자본력 침투로 로봇을 활용한 가상 프로덕션까지 들어와 국내뿐만 아니라 전 세계에 ‘K-한류 메타버스 콘텐츠’가 유통되기가 한결 더 쉬울 전망이다.

그러므로 인공지능을 이용한 가상 프로덕션은 가상 제작 도구, 컴퓨팅, VFX 등 기술 전반에 대한 강력한 이해를 갖춘 기술 팀이 필요하다. 또한 그러한 가상 프로덕션을 이용하는 모든 사람들이 클라우드 컴퓨팅, 실시간 라이브 제작 기술 및 기본 VFX 지식에 대한 기술을 습득하도록 교육하는 것이 무엇보다도 중요하다.

◆ 이 칼럼은 과학기술정보통신부와 한국 전파진흥 협회(RAPA)가 주관하는 1인 미디어 산업 동향 웹진 Vol. 3 9월 호에 개제된 글을 제 포스트에 복사해 놓았습니다. 원본은 여기에서 PDF로 다운로드 받을 수 있습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari