몰입형 사운드 Immersive Sound는 때에 따라 공간 사운드 Spatial Sound 로도 불립니다. 제가 진행하고 있는 vr프로젝트에서 핵심적인 부분 이기도 하고 또 개인적으로 VR, 특히 실사 VR 영상에서 몰입감을 주기 위한 매우 중요한 요소라고 생각해서 소개하고자 합니다.
몰입형 사운드는 쉽게 말해 HMD를 쓴 사용자가 보는 방향에 따라서 소리가 다르게 들리는 기술입니다.
위의 사진처럼 특정 공간이나 사물에 표현하고자 하는 소리를 링크시켜서 HMD를 쓴 사용자가 보는 방향에 따라서 소리가 다르게 들리도록 하는 것을 파면 음장 합성이라고 합니다. 영상이 가진 시각적 정보가 인간의 눈을 통해서 인지 되는 속도보다 소리의 정보가 인지 되는 속도가 훨씬 빠르기 때문에 몰입 사운드는 영상보다 사실성을 표현하는 데 있어서 유용하게 쓰일 수 있습니다.
1. 3D 기술로 부터의 유래
물론 소프트웨어와 하드웨어의 발전을 통해서 지속적으로 발전되었던 것은 맞지만 3D 사운드는 사실 1990년대에 이미 어느 정도 상당한 기술적인 논의가 이루어졌었습니다. 대표적으로 5.1 채널 스피커 시장이 형성되고 홈 시어터에 3D 사운드가 부분적으로 구현되었던 사례를 생각해 볼 수 있습니다. 하지만 완전히 상용화되지 못한 것은 3D 사운드가 스피커들을 통해 구현되었을 때 완전한 형태의 몰입감을 주지 못하기 때문입니다. (요즘은 설치가 어려운 5.1 채널 스피커보다 스피커 바 형태가 가정용 입체 사운드 구현에 더 많이 쓰이는 것 같습니다.) 3D 사운드가 몰입형 미디어인 VR/AR/MR 콘텐츠에 최적화된 것으로 보는 데는 크게 세 가지 이유가 있습니다.
첫째, 3D 사운드는 스피커보다는 헤드폰을 쓰고 감상했을 때 월등히 더 높은 몰입감을 줍니다. 가정용 홉 시어터나 영화관의 사운드는 일반적으로 헤드폰을 쓰고 감상을 하는 형태가 아닙니다. 반면 몰입형 미디어는 헤드폰을 쓰고 보는 형태이기 때문에 3D 형태의 사운드가 구현되기에 훨씬 유리한 환경입니다.
둘째, 3D 사운드가 완전히 구현되기 위해서는 바이노럴 형태의 사운드 (인간이 양 귀로 듣는 것과 같은 사운드 형식) 가 중요한데 바이노럴 사운드는 헤드폰으로 감상했을 때 스피커로 들었을 때 보다 월등한 몰입감을 선사합니다.
세 번째 이유가 몰입형 미디어를 3D 사운드가 적용되기에 이상적인 캔버스가 되도록 만든다고 봅니다. 몰입형 미디어는 HMD을 통해서 보게 되는데 센서와 컨트롤러가 몰입을 돕기는 하지만 궁극적으로 VR의 몰입 시청각 환경을 만들어주는 것은 헤드 트레킹을 통해서 생기는 상호 작용성이라고 봅니다. HMD로 보는 방향에 따라서 소리가 달라지는 상호작용성은 사용자가 사운드 공간에 완전히 몰입되는 데 있어서 결정적인 역할을 한다고 봅니다.
2. 몰입형 사운드의 유용성
VR이 놀라운 기술 체험을 넘어서 사용자에게 지속 가능한 호기심을 주지 못하는 결정적인 이유가 저는 현재 표준 해상도인 4K가 충분한 몰입감을 주지 못한다는데 있다고 봅니다. 콘텐츠의 스토리 텔링 방식이 VR에 최적화되지 못한 것을 이유로 보기도 하지만 저는 해상도 문제가 본질적인 문제라고 생각합니다. 이 문제는 특히 실사 VR의 경우에 더욱 도더라지는 문제입니다.
2G 통신망에서 보던 동영상 콘텐츠와 오늘날 VR 콘텐츠를 해상도 면에서 비교하는 것은 적절해 보입니다. 왜냐하면 2G에서 동영상의 화질 상한선이 480P 였던 것과 마찬가지로 오늘날 양안을 통해 보았을 때 4K VR 영상의 480P 수준 이기 때문입니다. 당시 아이폰으로 볼 수 있던 480P 화질이 TV 나 극장 스크린을 통해서 보던 영상의 화질과 비교했을 때 볼품없는 수준이었던 것처럼, VR HMD를 통해서 보는 영상의 화질이 TV나 영화관에서 보는 화질보다 나쁘기 때문에 오늘날 VR 관객이 처음에는 신기해서 몇 번 보기는 하지만 화질에서 심대한 차이가 있는데 굳이 영화나 TV를 보면 될 것을 쓰기도 귀찮은 HMD를 쓰면서 까지 보고 싶지 않기 때문입니다.
영상이 아직 맹아적 수준인 것과는 다르게 몰입형 사운드는 기술이 발전할 수 있는 거의 최대치에 도달해있습니다. 기술적으로 성숙한 몰입형 사운드는 4K VR 영상의 몰입감을 높이기 위한 대안적 요소로서 기능할 수 있다고 봅니다. 앞의 포스트에서 설명드렸던 것처럼 5G 네트워크는 VR 콘텐츠가 대중화되기 위한 필수조건이고 이를 통해 온라인 미디어 플랫폼을 중심으로 비로소 대중화가 일어날 것이라고 예상하고 있습니다.
3. 틈새시장
VR 영상이 충분한 몰입감을 주기 위해서는 8K VR이 표준 해상도로서 안정화되고 H265 코덱의 압축률이 현저하게 개선되고, 양자 컴퓨터의 상용화를 통해서 CPU와 그래픽카드가 8K 이상 해상도의 영상을 재생하는 안정적인 하드웨어 환경이 조성되는 것이 필수적입니다. 그런데 5G 네트워크가 상용화되는 속도보다 8K-16K 영상을 안정적으로 재생할 수 있는 하드웨어 환경이 조성되는 속도가 1-2년 정도 느릴 것으로 예상하고 있습니다.
제가 흥미 있게 보고 있는 부분은 이 부분입니다. 몰입형 사운드 기술은 지금 당장 VR영상 콘텐츠에 적용 가능하며, 더 나아가 5G 네트워크를 통해 온라인 미디어 플랫폼을 중심으로 VR 영상 콘텐츠가 활발히 제작될 때 고사양의 하드웨어에 의한 기술적인 티핑 포인트가 오기 전까지 앞으로 약 3-4년 (한국을 기준으로)의 시간 동안 몰입형 사운드가 몰입형 미디어에서 몰입감을 주기 위한 대안적 요소로서 쓰일 수 있다고 봅니다. 이것은 저 혼자 만의 생각은 아니고요. 4K VR 영상에서 몰입 사운드의 중요성은 이미 국제적으로 인정받고 있으며 프리미엄급 VR과 준전문가급 VR을 구분하는 기술요소로서 자리 잡아가고 있습니다. 이 기술의 트렌트에 대해서는 다른 지문을 통해서 소개해 드리겠습니다.
4. 한계
몰입형 매체는 이를 소프트웨어 적으로 구현할 플랫폼이 부족합니다. 이 부분은 5G 네트워크로의 전환이 작년까지 불확실한 요소가 존재했고 따라서 현재 VR 영상 콘텐츠가 상용화되지 못하고 있기에 4K VR 영상의 완성도에 대한 논의들이 지지 부진하고 있기 때문이라고 봅니다. 몰입형 사운드에 대한 기술적 지원은 어떠한 플랫폼이 먼저 준비하고 있을까요? 이것은 5G 네트워크의 상용화를 통해 수혜를 받을 업체들이 먼저 준비하고 있으리라고 봅니다. 지원 플랫폼들이 늘어나고 있습니다만 리서치 중에 제가 알게 된 바 현재 소프트웨어적으로 몰입형 사운드를 지원하는 플랫폼은 페이스북, 유튜브 그리고 GEAR VR 정도인 것 같습니다. (HTC의 VIVE CINEMA도 지원하고 있습니다.)
과거 2G에서 4G로 기술 전환이 이루어질 때 가장 큰 수혜를 입은 업체는 아마도 온라인 미디어 플랫폼들이었다고 봅니다. 이는 특히 동영상 콘텐츠를 온라인 미디어를 통해서 제공하는 유튜브와 페이스북이 크게 성장할 수 있는 기반이 되었습니다.
5G 기술의 혁신성은 이미 4G를 통해 큰 수혜를 경험한 업체들이 잘 준비하고 있다고 봅니다. 5G 네트워크를 통해서 몰입형 매체가 활성화될 것이라고 보고 있는 것이죠. 페이스북이 VR HMD 업체인 오큘러스를 인수한 것은 많은 사람들이 알고 있습니다. 그런데 페이스북이 몰입형 사운드의 가장 대중화된 SDK 업체인 TBE (Two Big Ears)를 인수한 것을 아는 사람은 그리 많지 않은 것 같습니다.
페이스북은 공간 사운드의 SDK와 프로그램을 무료로 배포하고 있는 대표적인 업체이며, 소프트웨어 상으로도 공간 사운드와 통합된 영상이 구현될 수 있도록 기술 지원하고 있습니다. 유튜브도 마찬가지 구요. 5G 네트워크가 상용화되었을 때 어떤 플랫폼이 가장 큰 수혜를 받을지 100% 장담 하기는 어렵습니다. 하지만 4G 통신망의 상용화 때 페이스북이 기존의 텍스트 기반의 콘텐츠 들과 동영상 콘텐츠들의 결합을 잘 이루어 내었던 것처럼 몰입형 미디어를 기존의 플랫폼에 결합하는 과업을 가장 잘 달성해내는 플랫폼이 큰 수혜를 입으리라고 봅니다.
* 제가 운영하고 있는 VR 프로덕션인 TOPOS는 몰입형 사운드를 중심으로 VR 영상 콘텐츠를 제작한바 있습니다. 그리고 제작 과정에서 영국의 사운드 리서치 연구 집단인 SERG과 협업하였습니다. 현재는 새로운 프로젝트를 기획 중입니다. 조금 진행이 되면 포스팅하겠습니다.
http://www.serg-aberdeen.net/research/immersive-audio-technology/