2018 CVPR 논문 동향 및 주요 연구 소개

[카카오AI리포트] 황순민

Oct 2. 2018

‘컴퓨터 비전 및 패턴 인식 학회(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)’는 4차 산업혁명 및 인공지능에 대한 관심에 힘입어 급격하게 성장하고 있는 컴퓨터 비전 분야의 명성 있는(Top-tier) 학술대회이다. 특히 자율주행이나 의료영상 분석 등에 대한 연구들이 활발하게 발표되면서 더욱 큰 관심을 모으고 있다. 등록 인원은 매년 20% 이상 증가하고 있고, 투고되는 논문 수 또한 필자가 마지막으로 참석했던 2015년에 비해 1.5배 이상 증가하여 올해는 3309편이 제출되는 등 CVPR의 인기가 매우 뜨겁다.*1

학회의 덩치가 커진 만큼, CVPR를 충분히 즐기기 위해서는 미리 준비해야 할 부분들이 상당히 많아졌다. 많은 수의 논문이 발표되기 때문에 관심 있는 논문들을 미리 체크하는 데에도 꽤 많은 시간을 들여야 했고, 함께 개최되는 워크숍도 무려 48개나 되었기 때문에 어떤 워크숍에 참석할지 결정하는 것도 쉽지 않았다. CVPR의 엄청난 인기를 실감하듯, 올해는 점심시간조차 아껴가면서 포스터 세션(poster session)에 참석해야 하는 강행군이었다. 기업체들의 전시 부스는 전보다 커졌고, 인재 영입도 치열하게 이루어져 전쟁터와 다름이 없었다.

최근 몇 년 사이 한국에서 투고하여 발표되는 논문 숫자가 많아지면서, 올해는 미국, 중국에 이어 한국이 세 번째로 참가자가 많은 국가*2였다. 이러한 열기를 반영하듯 올해도 CVPR에 참석하는 한국인들의 페이스북(Facebook) 그룹 채팅방이 생겨났고, 비행기에서 우연히 친구들을 만나기도 했다. 첫날 학회장에서는 등록 데스크의 줄이 학회장을 둘러 약 300m 이상 늘어지는 진풍경이 벌어지기도 했다.

[ 그림 1 ] 학회장 풍경

연구 경향

이번 CVPR에서 발표된 논문들의 제목을 분석해보면 ‘학습(Learning)’이라는 키워드가 돋보인다. 즉 이제는 많은 컴퓨터 비전 문제들이 학습 기반으로 해결책을 찾아가고 있다는 것을 의미한다. 또한 물체 검출(object detection)이나 의미론적 분할(semantic segmentation), 거리/자세 추정(depth/pose estimation), 초해상도 영상 변환(super-resolution), 주석 생성(captioning) 등 다양한 문제들에 대한 연구가 이루어지고 있었다.

학습기반으로, 특히 딥러닝(deep learning)을 이용하여 이러한 컴퓨터 비전 문제를 해결하기 위해서는 많은 데이터가 필요하다. 이에 따라 교사학습(supervised learning)에 필요한 정답 데이터에 대한 부담으로 인하여, 비교사학습(unsupervised, self-supervised)이나 약한교사학습(weakly-supervised) 등이 활발하게 연구되고 있다. 또한 약 2, 3년 전부터는 최신 게임 제작에 활용되는 컴퓨터 그래픽 엔진을 활용하여 실제와 같은 영상을 합성(synthesis)하고 이를 인공신경망 학습에 활용하려는 시도들이 활발해지고 있다. 그러나 이런 접근은 합성 데이터와 실제 데이터의 미묘한 차이에서 오는 도메인 이동(domain shift) 문제를 야기하였고, 이를 해결하기 위한 도메인 적응(domain adaptation) 또는 전이 학습(transfer learning)과 같은 연구도 많아지고 있다.

논문 제목에서는 잘 나타나지 않았지만, 최근 많이 연구되고 있는 방향으로는 (1) 기존에 인간이 경험적으로 디자인한 모델을 데이터 주도적으로 학습된 인공신경망 모델로 대체하는 것(deep learning approach)과 (2) 여러 종류의 입력 데이터를 함께 사용하는 것(multimodal learning), (3) 불완전한 정답 데이터를 활용해 학습하는 것(weakly-/partially supervised learning)이 있다. 이와 관련된 흥미로운 연구 몇 편을 소개한다.

[ 그림 2 ] CVPR 2018 발표 논문 제목에서의 단어 빈출 현황*4

※범례: 글자의 크기와 빈출 정도는 비례함.

인상 깊었던 연구 소개

1) [Intel] 어둠 속에서 보는 법 배우기(Learning to See in the Dark*3)

이 연구에서는 몇 단계로 구성된 기존의 카메라 영상 처리 파이프라인(pipeline)을 인공신경망으로 대체하기 위한 방법을 제안한다. 기존 방법으로는 조도가 매우 낮은 환경에서 빠른 속도로 촬영하는 경우 아주 어둡거나 잡음이 매우 심한(noisy) 영상을 얻을 수밖에 없었는데, 이 연구에서 제안하는 인공신경망 기반의 파이프라인을 이용하면 낮은 조명 환경에서도 고품질의 영상을 획득할 수 있음을 보았다. 이 연구는 고 명암비 영상(high dynamic range image, HDR)이나 움직이는 물체 등에 대한 고려가 없는 등 몇 가지 한계점이 있지만, 인공신경망을 영상 획득 과정의 초기 단계부터 활용하면 고품질의 영상을 얻는 데 매우 유용할 수 있음을 보여주는 중요한 연구이다.

[ 그림 3 ] 인공신경망 기반의 파이프라인을 이용한 영상 처리*3

2) [MIT] 무선 신호를 이용하여 벽으로 가려진 사람의 자세 추정(Through-Wall Human Pose Estimation Using Radio Signals*5)

이 연구는 무선 신호(radio frequency signal)로부터 사람의 자세를 추정하는 인공신경망을 소개하고 있다. 무선 신호는 사람이 직관적으로 이해할 수 없기 때문에 교사학습(supervised learning)을 위한 정답을 직접 들어줄 수가 없다. 이 연구에서는 영상으로부터 사람의 자세를 추정하는 최신 모델(Open Pose)*6을 교사 네트워크(teacher network)로 활용하여, 동기화된 무선 신호로부터 같은 사람의 자세를 추정하도록 하는 교차 감독(cross-modal supervision)을 통해서 학생 네트워크(student network)를 학습한다. 학습 이후에는 무선 신호만을 사용한 사람의 자세를 추정하는 것이 가능한데, 사용된 무선 신호는 벽을 가로지르기 때문에 벽 뒤에 있는 가려진 사람의 자세 또한 추정할 수 있게 된다.

[ 그림 4 ] 단일 객체에 대한 테스트 예제(위)와 RF-Pose 모델 구조(아래)*5

3) [Facebook AI Research] 모든 것을 분할하는 법 배우기(Learning to Segment Everything*7)

이 연구에서는 물체 분할(object instance segmentation) 문제를 학습하기 위한 데이터가 부분적으로 주어진 경우(partially supervised training)를 다루고 있다. 물체 분할을 위해서 활용되는 유명한 모델인 Mask R-CNN*8의 학습을 위해서는 영상 내 물체의 위치 정보를 나타내는 상자 정보(bounding box) 및 픽셀(pixel) 단위의 마스크 정보(instance mask)가 모두 필요하다. 이 연구에서는 물체의 상자 정보와 마스크 정보가 모두 있는 카테고리 A의 데이터를 이용하여 상자 가중치(box weights)로부터 마스크 가중치(mask weights)를 추정하는 가중치 전달 함수(weight transfer function)를 학습한다. 이를 이용하여 마스크 정보가 없는 카테고리 B에 대해서도 마스크 정보를 추정해낼 수 있다. 많은 카테고리를 다루기 위해서 학습에 필요한 마스크 정보를 모두 제공하는 것은 막대한 비용이 들기 때문에, 완전한 지도 없이 모델을 학습하기 위한 방법을 고안하는 것이 매우 중요하다는 점에서 이 연구는 큰 의미가 있다.

[ 그림 5 ] 제안하는 방법의 구조(위)와 결과 예시(아래)*7

조연에서 주연으로, 워크숍

올해는 무려 48개의 워크숍이 함께 개최되면서 CVPR에 참석한 수많은 연구자들의 발길을 잡았다. 과거의 워크숍들이 초청 강연 위주로 진행되어 상대적으로 많은 관심을 받을 수 없었던 것과 달리 최근 CVPR과 함께 개최되는 워크숍들은 미래지향적이고 구체적인 문제를 다양한 방식으로 다룸으로써 큰 인기를 끌고 있다. 특히 요즘 워크숍들은 자체적으로 새로운 데이터 세트를 제공하고 경진대회를 여는 경우도 많아 다양함을 더한다. 이번 CVPR에서는 메인 학회 일정의 첫 순서로 기계학습 분야에서의 경연대회 역할과 워크숍에서 진행되는 몇몇 경연대회를 소개하는 특별 세션을 가질 정도로, 이제는 워크숍/경연대회가 학회의 주연으로 발돋움하고 있다.

구체적으로 ‘미세 분류 (Fine-grained Visual Categorization)*9’, ‘행동 인식 (ActivityNet Large Scale Action Recognition Challenge)*10’, ‘비디오 물체 분할 (DAVIS Challenge on Video Object Segmentation)*11’, ‘자율주행을 위한 강인한 시각 인지 경연대회(Robust Vision Challenge)*12’ 등 다양한 문제에 대한 경연대회가 진행되었다. 분야의 특성상 주어진 문제에 대해 얼마나 높은 성능을 달성하는가에 대한 연구는 연구자들뿐만 아니라 기업에서도 관심이 많기 때문에, 다양한 기업들이 각 워크숍/경연대회를 후원하고 많은 사람들이 도전하는 선순환 구조가 만들어지고 있다. 이런 다양한 벤치마크, 경연대회가 진행되면서 해당 문제에 대한 최신 성능이 매우 빠르게 발전하고 있기 때문에, 같은 문제를 고민하는 연구자들은 해당 워크숍을 눈여겨보는 것이 좋을 듯하다.

네트워킹(networking)

전시 부스들도 해마다 늘어나고 있는데, 최근에는 기업들이 더욱 공격적으로 인재 영입에 나서고 있는 것을 느낄 수 있었다. 몇몇 회사들은 학회장에 별도의 회의실을 마련하여 현장에서 엔지니어와 인터뷰를 진행하는 경우도 있었고, 공식적으로 진행되는 부스 전시 외에 비공개 기술 강연 등을 통해 기술력을 과시하기도 했다. 비공개 기술 강연이 있는 회사의 경우 전시 부스에서 강연에 초대되는 기회를 얻을 수도 있었다.

저녁에는 구글(Google), 애플(Apple), 페이스북(Facebook), 아마존(Amazon) 등의 북미 회사들뿐 아니라 텐센트(Tencent), 화웨이(Huawei), 바이두(Baidu) 같은 중국 기업들도 네트워킹 파티를 열었다. 많은 연구자들이 파티에 참석해서 음료와 식사를 즐기며 사교활동을 할 수 있었는데, 이런 서양식 파티가 익숙하지 않은 필자는 꽤나 어색함을 느끼기도 했다. 이런 어색함을 이겨내고 잘 어울린다면 학회에서 인맥을 넓히는 데 도움이 될 수도 있을 것이다.

마치며

OpenAccess를 지향하는 arXiv*13 덕분에 원한다면 얼마든지 공부할 수 있는 세상이다. 그러나 이런 세계적인 학회에 직접 참석해서 그 분위기를 느끼고, 적어도 그곳에 있는 며칠만큼은 연구 생각만으로 가득 차는 경험은 온라인에서 쉽게 할 수 없다. 현장에서 공부한 다양한 연구 내용들을 바탕으로, 함께하는 동료들 또는 학회에 참석한 연구자들과의 교류가 새로운 아이디어로 이어지는 경험을 할 수 있다면 연구자로서 매우 큰 동기부여가 될 것이다. 앞으로도 더 많은 한국인들이 이런 세계 무대를 적극적으로 경험하고 자극받아 4차 산업혁명 시대를 선도할 수 있기를 희망해본다.

글 | 황순민 jjang9hsm@gmail.com

KAIST에서 박사과정을 밟고 있는 공돌이. 로보틱스 및 컴퓨터비전 연구실 권인소 교수님의 지도를 받으며 자율주행을 위한 인지 기술에 대해서 연구하고 있습니다. 이 외에도 여러가지 재미있는 컴퓨터 비전 문제에 폭넓은 관심을 가지고 있습니다. 연구를 위한 연구보다 정말 쓰일 수 있는 연구를 지향하며, 언젠가 세상을 바꾸는 데 조금이라도 도움이 되는 엔지니어가 되고 싶다는 꿈을 꿉니다.