2020년 2월 13일 (목) 구글 AI 리서치 블로그
텔레비전 및 데스크탑 용으로 촬영 및 편집된 비디오는 일반적으로 가로 종횡비(16:9 또는 4:3)로 편집되고 봅니다. 그러나 점점 더 많은 사용자가 휴대 기기에서 콘텐츠를 만들고 소비함에 따라 과거의 종횡 비율이 시청에 사용되는 디스플레이에 항상 맞지는 않습니다. 비디오를 다른 종횡비로 재구성하는 기존의 접근 방식에는 일반적으로 정적으로 자르기, 즉 카메라 뷰포트를 지정한 다음 외부의 시각적 내용을 자르는 것이 포함됩니다. 불행히도 이러한 정적 자르기 접근 방식은 다양한 구성 및 카메라 모션 스타일로 인해 종종 만족스럽지 못한 결과를 초래합니다. 그러나 보다 맞춤화된 접근 방식은 일반적으로 비디오 큐레이터가 각 프레임에서 두드러진 내용을 수동으로 식별하고 프레임간 전환을 추적하며 비디오 전체에 따라 자르기 영역을 조정해야합니다. 이 프로세스는 종종 지루하고 시간 소모적이며 오류가 발생하기 쉽습니다.
이 문제를 해결하기 위해 인텔은 지능형 비디오 재구성을 위한 오픈소스 프레임워크인 AutoFlip을 발표하게 되어 기쁘게 생각합니다. AutoFlip은 MediaPipe 프레임워크 위에 구축되어 시계열 멀티모달 데이터 처리를 위한 파이프라인을 개발할 수 있습니다. AutoFlip은 비디오(실제로 촬영하거나 전문적으로 편집) 및 대상 차원(가로, 사각형, 인물 등)을 입력으로 사용하여 비디오 내용을 분석하고 최적의 추적 및 자르기 전략을 개발하며 원하는 종횡비에서 동일한 지속 시간으로 출력 비디오를 생성합니다.
[그림1] 상세설명 - 왼쪽: 원본 비디오(16 : 9). 중간: 표준 중앙 자르기(9:16)를 사용하여 프레임을 재구성합니다. 오른쪽: 자동 전환(9:16)으로 재구성되었습니다. 관심있는 피사체를 감지함으로써 AutoFlip은 중요한 시각적 컨텐츠가 잘리지 않도록 할 수 있습니다.
AutoFlip 소개
AutoFlip은 스마트 비디오 재구성을 위한 완전 자동 솔루션을 제공하여 최신 ML 지원 객체 감지 및 추적 기술을 사용하여 비디오 컨텐츠를 지능적으로 이해합니다. AutoFlip은 처리할 장면을 분리하기 위해 장면 변경을 나타내는 컴포지션의 변화를 감지합니다. 각 샷 내에서 비디오 분석은 카메라 모드와 컨텐츠에 최적화된 경로를 선택하여 장면을 재구성하기 전에 중요한 컨텐츠를 식별하는 데 사용됩니다.
샷(장면) 감지
장면 또는 샷은 컷(또는 점프)이없는 연속적인 비디오 시퀀스입니다. 샷 변경의 발생을 감지하기 위해 AutoFlip은 각 프레임의 색상 히스토그램을 계산하고 이를 이전 프레임과 비교합니다. 프레임 색상 분포가 슬라이딩 히스토리 창과 다른 속도로 변경되면 샷 변경 신호가 일어납니다. AutoFlip은 전체 장면에 대한 재구성을 최적화하기 위해 재구성 결정을 하기 전에 장면이 완료될 때까지 비디오를 버퍼링합니다.
비디오 컨텐츠 분석
딥러닝 기반 객체 감지 모델을 사용하여 프레임에서 흥미롭고 중요한 컨텐츠를 찾습니다. 이 컨텐츠는 일반적으로 사람과 동물을 포함하지만, 광고에 대한 텍스트 오버레이 및 로고 또는 스포츠에 대한 모션 및 볼 감지를 포함하여 애플리케이션에 따라 다른 요소가 식별할 수 있습니다.
얼굴 및 객체 감지 모델은 CPU에서 TensorFlow Lite를 사용하는 MediaPipe를 통해 AutoFlip에 통합됩니다. 이 구조를 통해 AutoFlip을 확장 할 수 있으므로 개발자는 다양한 사용 사례 및 비디오 컨텐츠에 대한 새로운 탐지 알고리즘을 편리하게 추가 할 수 있습니다. 각 객체 유형은 가중치를 연관시킵니다. 가중치(weight)는 상대적 중요도를 정의합니다. 가중치가 높을수록 카메라 경로를 계산할 때 기능에 더 많은 영향을 미칩니다.
[그림2] 상세설명 - 왼쪽: 스포츠 영상에서 사람 감지. 오른쪽: 두 개의 얼굴 상자 ( '코어' 및 '모든' 얼굴 랜드마크) 좁은 세로 자르기 경우에는 종종 주요 랜드마크 상자만 들어갈 수 있습니다.
리프레밍
각 프레임에서 관심있는 주제를 식별 한 후 새로운 보기를 위해 컨텐츠를 재구성하는 방법에 대한 논리적 결정을 내릴 수 있습니다. AutoFlip은 장면에서 객체의 동작 방식(예: 이동 또는 정지)에 따라 최적의 재조립 전략(고정, 패닝 또는 추적)을 자동으로 선택합니다. 정지 모드에서 리프레임된 카메라 뷰포트는 대부분의 장면에서 중요한 컨텐츠를 볼 수있는 위치에 고정됩니다. 이 모드는 카메라를 고정 삼각대에 장착하거나 후처리 안정화 기능이 적용되는 전문 영화 촬영법을 효과적으로 모방 할 수 있습니다. 다른 경우에는 뷰포트를 일정한 속도로 이동하여 카메라를 패닝하는 것이 가장 좋습니다. 추적 모드는 프레임 내에서 움직일 때 흥미로운 객체를 지속적으로 추적합니다.
알고리즘이 선택하는 이 세 가지 리프레밍 전략 중 AutoFlip은 각 프레임에 대해 최적의 자르기 창을 결정하고 관심있는 내용을 가장 잘 보존합니다. 경계 상자가 장면에서 초점의 대상을 추적하는 동안 일반적으로 프레임 간 상당한 지터를 나타내므로 자르기 창을 정의하기에 충분하지 않습니다. 그 대신에 유클리디언-놈(Euclidean-norm) 최적화 프로세스를 통해 각 프레임의 뷰포트를 조정하여 부드러운(low-degree polynomal) 카메라 경로와 경계 상자들 사이의 나머지들을 최소화합니다.
[그림3] 상세설명 - 위: 프레임 간 경계 상자들을 따라 카메라 경로가 나타납니다. 아래: 유클리디언-놈 경로 형성을 사용하여 생성된 파이널 스무딩 카메라 경로. 왼쪽: 물체가 움직이며 추적 카메라 경로가 필요한 장면. 오른쪽: 물체가 같은 위치에 가까이있는 장면. 정지식 카메라는 장면의 전체 지속 시간 동안 컨텐츠를 커버합니다.
AutoFlip의 구성 그래프는 최선의 노력 또는 필요한 재구성을 위한 설정을 제공합니다. 필요한 모든 영역을 포함 할 수 없는 경우(예: 프레임에 너무 퍼져 있는 경우) 파이프 라인은 letterbox 효과를 적용하여 이미지를 채워 프레임을 채우도록 덜 공격적인 전략으로 자동 전환합니다. 배경이 단색으로 감지되는 경우 이 색상은 매끄러운 패딩을 만드는 데 사용됩니다. 그렇지 않으면 원본 프레임의 흐리게 처리된 버전이 사용됩니다.
AutoFlip 사용 사례
우리는 이 도구를 개발자들과 영화 제작자들에게 직접 출시하여 디자인 창의성의 장벽을 줄이고 비디오 편집 자동화를 통해 도달 할 수있게 되어 기쁘게 생각합니다. 비디오 컨텐츠 소비를 위한 장치의 다양성이 지속적으로 증가함에 따라, 비디오 포맷을 다양한 종횡비에 적응시키는 능력이 점점 중요 해지고 있다. 사용 사례가 세로에서 가로, 가로에서 세로 또는 4:3 ~ 16:9와 같은 작은 조정이든 AutoFlip은 지능적이고 자동화된 적응형 비디오 재구성을 위한 솔루션을 제공합니다.
다음은?
다른 머신러닝 알고리즘과 마찬가지로, AutoFlip은 인터뷰를 위한 스피커 감지 또는 만화의 애니메이션 얼굴 감지와 같이 비디오 의도와 관련된 객체를 감지하는 향상된 기능의 이점을 활용할 수 있습니다. 또한 입력 비디오가 종종 화면에서 잘릴 수 있기 때문에 입력 비디오에 화면 가장자리 (예: 텍스트 또는 로고)에 중요한 오버레이가있는 경우 일반적인 문제가 발생합니다. 텍스트 / 로고 감지와 이미지 인 페인팅 기술을 결합하여 향후 버전의 AutoFlip이 새로운 종횡비에 더 잘 맞도록 전경 객체를 재배치 할 수 있기를 바랍니다. 마지막으로 패딩이 필요한 상황에서 딥 언롭(deep uncrop) 기술은 원래 가시 영역을 넘어 확장 할 수있는 향상된 기능을 제공 할 수 있습니다.
Google에서 내부적으로 AutoFlip을 개선하기 위해 노력하는 동안 오픈 소스 커뮤니티의 개발자 및 영화 제작자의 기여를 권장합니다.
감사의 말
Jiuqiang Tang, Tyler Mullen, Mogan Shieh, Ming Guang Yong 및 Chuo-Ling Chang을 오픈 소싱을 도와 준 MediaPipe 팀과 Autoflip, Alexander Panagopoulos, Jenny Jin, Brian Mulford, Yuan Zhang, Alex Chen, Xue Yang, Mickey Wang, Justin Parra, Hartwig Adam, Jingbin Wang 및 Weilong Yang에 기여한 동료들에게 감사의 말씀을 전합니다.
게시자: 로스 앤젤러스 캠퍼스의 Google Research 수석 소프트웨어 엔지니어 Nathan Frey, 마운티뷰 캠퍼스의 Google Research 수석 소프트웨어 엔지니어 Zheng Sun
원본제목: AutoFlip - 지능형 비디오 리프레밍을 위한 오픈소스 프레임워크(AutoFlip: An Open Source Framework for Intelligent Video Reframing)
원본소스: https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html
AutoFlip 소스 링크: https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md
mediapipe 소스 링크: https://github.com/google/mediapipe/
Face Detection on Desktop 소스 링크: https://github.com/google/mediapipe/blob/master/mediapipe/docs/face_detection_desktop.md
Object Detection on Desktop 소스 링크: https://github.com/google/mediapipe/blob/master/mediapipe/docs/object_detection_desktop.md
이 블로그는 2020년 2월 13일 (목), Google AI Research Blog 기사를 영어에서 우리나라 말로 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)