AI가 도입되게 되면 C.C. 제작에 필요한 시간이 80%나 줄고, 제작 비용 역시 50%나 줄어들게 된다는 설명이 붙여졌다.
이 기사는 국내에서 그다지 주목을 받지 못했다. 방송 산업의 Work-Flow별로 AI가 들어와서 효율화되기 시작한 게 하루 이틀의 일도 아니고, AI가 번역이나 통역을 대체할지도 모른다는 인식이 팽배해 있는 상황에서 WBD가 AI의 도움을 받아 C.C. 을 효율화하겠다고 했으니 그럴법하다. 오히려 "이제사" 라며 넘기는 게 당연한 수순일 수도 있다.
그러나 WBD, 구글 클라우드, 그리고 C.C. 이 세 가지 키워드에 숨겨진 의미는 단순해 보이지 않는다.
첫 번째 WBD의 발표자리에 구글이 같이 했다.
발표 현장에서 구글 클라우드의 CEO Thomas Kurian은 AI Agent가 앞으로도 제작 현장에서 기여할 만한 것이 많을 것임을 분명히 했다.
"AI has the potential to transform a variety of processes across the media and entertainment industry that deliver real business impact. With its captioning solution, Warner Bros. Discovery is seeing an incredible example of how AI agents can save organizations time and money,”
2024년 1Q기준 구글 클라우드는 아마존, 마이크로소프트에 이어 클라우드 시장에서 3위다. 아마존이 대략 31%의 점유율을 기록하고 있고, 마이크로소프트가 25%, 그리고 구글 클라우드는 11% 정도다. 지난 5년 동안 아마존은 30~34% 내에서 점유율을 유지하고 있고, 구글 클라우드도 8~11%에서 올라갔다 내려갔다를 반복하고 있다. 마이크로 소프트는 16%에서 25%까지 급성장했다. 마이크로 소프트의 급성장에는 AI가 있었다.
미디어 영역에서의 클라우드 시장 점유율도 비슷하다. AWS가 미디어 업계에서 가장 점유율이 높다. AWS는 콘텐츠 제작부터 미디어 스트리밍에 이르기까지 다양한 솔루션을 제공하고 있다. 특히 글로벌 사업자인 Netflix, HBO Max, Discovery 등이 AWS 이용하고 있다.
후발주자인 마이크로소프트의 Azure는 미디어 관리 및 분석에 포커싱 하면서 미디어 시장 내 점유율을 높여왔다. 특히 Open AI로 대표되는 AI와 데이터 분석 도구가 콘텐츠 사업자들의 생산성과 운영 효율성을 높이는데 기여하고 있다는 평가다. NBC Sprots는 MS의 클라우드 인프라를 이용해서 실시간 스포츠 이벤트를 스트리밍 하고, AI 분석 툴을 사용해 실시간 자막, 하이라이트 생성, 비디어 처리 등을 자동화했다. 디즈니도 Azure의 AI와 머신러닝을 통해 콘텐츠 제작 과정을 최적화하고 있다고 한다. 이 밖에도 소니 픽쳐스 등도 Azure의 대표 고객이다. AWS가 대형 플랫폼 사업자의 CDN 서비스에 기반하고 있는 반면에 상대적으로 MS는 콘텐츠 사업자의 선택을 받고 있다는 점이 차이라면 차이다. 예를 들어 디즈니는 CDN 서비스는 아카마이(AKAMAI)를 이용하는 반면에 콘텐츠 제작 툴 등은 MS의 클라우드 서비스를 이용하고 있다.
이 상황에서 구글은 GEN AI를 무기로 미디어 시장, 특히 콘텐츠 시장에 집중하기 시작했다. Generative AI를 활용한 자동화 자막 생성 등이 구글이 내세우는 핵심 서비스다. 특히 C.C. 처럼 비언어적 요소를 처리해야 하는 대목에서는 OPEN AI보다 구글의 기술력이 더 높다는 점에서 WBD와 이해관계가 맞아 떨어진 것으로 보인다.
정리해 보면, Google 클라우드는 낮은 점유율을 끌어올리기 위해서, 자사의 Generativce AI가 가장 잘 발현될 수 있는 미디어 사업자를 공략하기 시작했고, WBD는 비용 절감 등의 이유로 Generativef AI를 이용해야 하는 시점에서 상대적으로 비용절감 효과가 뛰어난 구글 클라우드를 선택했다고 보인다.
두번째, Closed Captions은 Gen AI의 수준을 드러낸다.
일단 WBD가 흔하디 흔한 자막(subtiles)이 아니라 C.C. 을 이야기하고 있다는 점에 주목하자. 일반인의 눈에야 자막과 C.C가 뭐가 다르냐고 하겠지만, 이 둘 사이에는 법적인 강제성과 필요 요소의 폭과 깊이가 다르다.
일단 미국 장애인법(ADA) 및 통신법에 따라 TV에 방송되는 모든 프로그램은 C.C. 가 필수다. 여기서 중요한 대목은 바로 TV에 방송되는 프로그램이라는 점. 만약 OTT에 방송되더라도, 그것이 TV에 방송이 된 것이라고 한다면 이때도 C.C. 은 제공되어야 한다. 예를 들어 넷플릭스의 <경성크리쳐>의 경우 방송에 나오지 않는 OTT 오리지널이기 때문에 C.C. 을 제공할 필요가 없지만, sbs에서 방송된 <굿파트너>를 방영할 경우엔 반드시 C.C. 를 붙여야 한다. 실시간 방송의 경우에는 그것이 OTT이든 일반 TV 방송이든 상관없이 모두 C.C. 이 제공되어야 한다. 미국이라면 tving에서 제공하는 실시간 야구 중계는 반드시 C.C. 가 제공되어야 한다.
상대적으로 VOD를 포함해서 사전 녹화 프로그램보단 실시간 방송의 C.C. 규정이 유연하긴 하지만, 그 어떤 경우에도 자막보다는 난이도가 높다. 기본적으로 C.C. 는 청각 장애인을 위한 서비스에서 출발했기 때문에 대사뿐만 아니라 음향효과와 배경 소리 등 비언어적 정보 처리까지 담아내야 하기 때문이다. 이 때문에 NNL 기반의 음성 인식 서비스의 오차율을 보면 자막이 대략 5~10% 내외라고 한다면, C.C.의 오차율은 10~20% 선이다. 더구나 실시간 방송의 경우 동기화율도 매우 중요하다. C.C. 에 대한 불만 중 대다수가 바로 이 동기화율 때문이다. 화면이 지나가고 나서 올라오는 글은 몰입을 방해하는 결정적인 요소다.
물론 AI가 도입되기 전에도 동기화율을 높이기 위한 시도는 있었다. 2~4명의 속기사가 팀을 이루어 교대로 작업을 했었다. 예를 들어 2명이 3초 간격으로 번갈아가며 속기하고, 다른 2명이 내용을 확인하고 교정해서 전송하는 방식이다. 그러나 아무리 손놀림이 빠른 듯 실시간 방송의 속도를 쫓아갈 수는 없는 노릇이라 실시간 방송에서 동기화는 어쩔 수 없는 대목이었다.
AI가 TV 발화를 문서화하고, 배경음악 등을 설명해 주고, 더 나아가 음향 효과 등을 정리해 줄 수 있다면 획기적으로 시간을 단축시킬 수 있다. WBD가 시간의 80%를 줄인다는 의미는 역설적으로 동기화의 수준을 높여준다는 의미이기도 하다.
결국 AI의 관점에서 보면 C.C.의 난이도가 일반 자막보다 높다. 좀 과장되게 표현하면, C.C.을 AI가 담당할 수 있으면 자막은 거저 따라오는 것이라고 해도 무방하다.
간단히 정리해 보자.
WDB의 Closed Captions에 AI를 도입하겠다는 의미는
AI는 자막을 넘어서 C.C. 의 효율성을 높일 정도로 수준이 높아졌다. 여전히 사람이 개입되어 감수를 해야겠지만, 비용의 50%, 총 소요 시간의 80%를 줄일 수 있을 정도는 된다. 비용의 대부분은 아마도 인건비일 테니 그만큼 장기적인 효율성은 검증된 셈이다.
WDB는 자신들의 서비스는 기존 자막보다 난도가 높은 Closed Captions에 AI를 도입, 경제성과 효율성을 모두 잡았다고 자랑할 수 있었고, Google 클라우드는 음성 인식 및 소리 인식 면에서는 자사의 서비스가 경쟁 클라우드 서비스가 높다는 점을 과시할 수 있었다.