네이버클라우드 Media Intelligence가 바꾸는 미디어 워크플로
영상 속 원하는 장면만 쏙쏙 골라서 찾아주는 AI가 있다. 네이버클라우드의 'Media Intelligence(구 MAIU: Media AI Understanding)'는 영상 속 인물, 행동, 배경, 대화 내용을 AI가 자동으로 분석해 메타데이터로 정리해주는 AI 영상 분석 서비스다. 현장에 바로 적용 가능한 실용적인 제품 수준으로 완성도를 갖췄다.
지난해 5월 국내 최대 방송·미디어·음향 전문 전시회 KOBA 2025에서 'MAIU'라는 이름으로 처음 공개됐고, 주요 방송국 관계자들의 뜨거운 러브콜을 받았고 클로즈드 베타 테스트를 거쳐 6월 정식 출시됐다. 이후 서비스 직관성 강화를 위해 'Media Intelligence'로 서비스명이 변경됐다. 7월엔 네이버와 KBS가 'AI 분야 포괄적 업무제휴 양해각서'를 체결하며, KBS의 방송 제작 노하우에 네이버클라우드 미디어 기술이 결합됐다.
* 본 포스팅은 네이버클라우드에서 소정의 수수료를 제공받아 작성된 글입니다.
미디어 인텔리전스는 네이버클라우드의 AI와 미디어 기술이 집약된 영상 분석 및 이해 서비스다. AI가 영상 콘텐츠의 전체적인 맥락을 이해하여 실제 사용자가 콘텐츠 제작 업무에 활용할 수 있는 다양한 인사이트를 제공한다. 사람이 일일이 영상을 돌려 보며 원하는 장면을 한땀한땀 찾아보는 수고를 줄여서 콘텐츠의 생산성과 품질을 동시에 높여주는 것이다.
영상 속 인물, 객체, 행동, 배경(장소) 등을 AI가 자동으로 분석하고, 키워드 혹은 자연어 검색만으로 사용자가 원하는 장면을 빠르게 추출할 수 있게 돕는다. 이를 통해 영상 콘텐츠 제작의 전처리 업무가 보다 빠르고 정확하게 자동화될 수 있다. 단순 반복 노동에서 벗어나 창의적인 영역에 집중할 수 있게 되는 셈이다.
실제 효율성을 수치로 본다면, 예능 프로그램 1편 제작 시 약 3,600분에 해당하는 영상을 촬영하는데 기존에는 편집팀이 3~4일에 걸쳐 분석 및 가편집을 마쳤다. 약 32시간 소요되는 것이다. 그런데 미디어 인텔리전스를 활용하면 2시간 이내로 끝낼 수 있다. 15배 이상의 시간 단축이라는 효율성을 가진다.
미디어 인텔리전스는 방송 및 영상 제작에 실제로 필요한 기능에 집중해 개발됐다.
(1) 구간 단위 분석
프레임 단위가 아닌 유의미한 씬 단위로 영상을 이해하고 분석한 결과를 제공한다. 분석 효율을 높여 긴 러닝타임의 영상도 빠르게 분석할 수 있다. 1시간짜리 영상 분석은 5분 내외로 소요된다. 영상 흐름을 구조화해서 썸네일을 제공하고, 필요한 장면을 빠르게 탐색할 수 있게 한다.
기존 AI 분석 서비스는 일반적으로 개별 프레임 단위의 탐지나 객체 인식에 국한되어 영상 콘텐츠의 흐름이나 맥락 이해가 어려웠다. 반면 미디어 인텔리전스는 이야기의 흐름이나 구성상 자연스러운 구간 단위로 분석하기 때문에, 실질적으로 콘텐츠를 편집하거나 재가공할 때 훨씬 직관적이고 현업에서 바로 활용 가능한 구조로 제공된다.
(2) 인물·행동·객체·장소·촬영기법 인식
특정 인물이 등장하는 장면, 달리기나 악수 등 특정 행동이 포함된 장면처럼 원하는 장면이 영상 어디에 있는지 직관적으로 보여준다. 기본적으로 약 800개의 객체, 행동, 시공간, 촬영 기법 관련 키워드를 제공하기 때문에 키워드 검색만으로도 원하는 장면을 찾을 수 있다.
(3) 음성 분석 및 대화 내용 텍스트 제공
대화 내용까지 추출해 텍스트로 정리한다. 화자별로 대화 내용을 분류할 수 있어 텍스트만 읽어도 빠르게 영상 내용을 파악할 수 있다. 주요 발언이나 인터뷰 부분을 빠르게 찾아낼 수 있고, 이를 기반으로 필요한 자막을 제작할 수 있다.
(4) 메타데이터 JSON 파일 제공
분석된 메타데이터를 JSON 포맷으로 내보낼 수 있어 기존 편집 툴과 연동하여 편집 시에도 손쉽게 활용 가능하다.
(5) 자연어·키워드 검색 지원
남자, 웃음, 달리기, 놀이터 등 다양한 키워드를 입력하여 원하는 구간을 빠르게 검색하거나, 두 개 이상의 키워드를 조합해 자연어로 원하는 장면을 검색할 수 있다. '남자 주인공이 강가에서 달리는 장면', '교복 입은 여학생이 학교에서 청소하는 장면' 등 검색의 자유도가 높다.
작년 7월 네이버와 KBS의 'AI 분야 포괄적 업무제휴 양해각서' 체결은 미디어 인텔리전스의 실질적 가치를 입증하는 중요한 이정표다.
KBS가 보유한 대규모 콘텐츠 자산과 미디어 인텔리전스 영상 분석 솔루션을 결합해 방송 콘텐츠 기획 및 미디어 산업 분야의 생산성을 획기적으로 높일 예정이다. KBS의 방송 제작 노하우에 네이버클라우드의 영상 분석 기술력이 더해지면서 실제 방송 현장에서 검증된 미디어 AI 자동화 솔루션으로 자리매김할 것으로 기대된다.
네이버클라우드는 미디어 인텔리전스를 통해 콘텐츠 제작자와 방송사, 플랫폼 사업자 모두가 실제로 혜택을 체감할 수 있는 AI 서비스를 지향한다. 다음과 같은 실무 현장에서 큰 가치를 발휘할 수 있다.
(1) 방송국/OTT의 포스트 프로덕션
방송 제작 과정에서 가편집본을 만드는 데 걸리는 시간을 대폭 줄일 수 있다. 특정 출연자의 리액션, 액션 장면 등 필요한 장면을 AI가 자동 분류하고 검색해주기 때문에 편집자가 원하는 장면을 훨씬 빠르게 찾을 수 있다.
(2) 미디어 아카이빙 및 콘텐츠 검색
방송사나 미디어 기업이 보유한 대규모 아카이브 콘텐츠를 미디어 인텔리전스로 자동 정리하면 필요한 영상을 메타데이터 태그 기반으로 빠르게 검색하고 재활용할 수 있다. 예를 들어 '눈 오는 장면'이나 '웃고 있는 인터뷰 장면'처럼 키워드로 바로 검색해 꺼낼 수 있다.
(3) 다양한 산업군으로 확장
이외에도 교육 콘텐츠 요약, 스포츠 중계 하이라이트 추출, 라이브 스트리밍 영상 분석 등 다양한 산업군에서의 확장이 가능하다.
미디어 인텔리전스는 모델 경량화를 통해 글로벌 경쟁 제품 대비 최대 1/3 수준의 요금으로 제공된다. 또한 이 서비스를 이용할 경우 모바일 라이브 스트리밍, VOD 영상 송출 등 기능을 동일 플랫폼 내에서 함께 활용할 수 있어, 제작부터 송출까지의 전 과정을 효율적으로 운영할 수 있다.
성무경 네이버클라우드 플랫폼 기획 총괄은 "급속도로 성장하고 있는 영상 산업은 클라우드 전환 및 적극적인 AI 기술 도입으로 혁신이 가장 기대되는 분야 중 하나"라며, "AI 영상 분석 서비스를 포함해 콘텐츠 제작, 편집, 유통, 관리에 이르는 전 과정을 아우르는 엔드투엔드 미디어 서비스로 고객의 다양한 니즈를 만족시키고 영상 산업의 혁신을 이끌어 낼 수 있도록 노력하겠다"고 말했다.
미디어 업계의 실무자라면 공감할 것이다. 영상 편집에서 가장 고통스러운 순간은 원하는 장면을 찾기 위해 수백 분의 영상을 반복 재생하는 시간이다. 미디어 인텔리전스가 해결해줄 것이다.
32시간 작업을 2시간으로 줄이고, 반복 노동에서 해방되어 진짜 창의적인 작업에 집중할 수 있는 자유를 얻을 수 있다. 편집자가 기계적인 검색 작업 대신 스토리텔링과 연출에 몰입할 수 있다면 콘텐츠의 품질은 자연스럽게 상승할 수밖에 없다.
네이버클라우드 미디어 인텔리전스는 미디어 AI 자동화의 새로운 기준을 제시한다. 방송사와 OTT, 유튜버와 숏폼 크리에이터 모두에게 강력한 솔루션이 될 것이다.
#AI영상분석서비스 #MAIU #네이버미디어AI #MediaIntelligence
* 커버, 본문 사진 출처: 네이버클라우드