brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Apr 09. 2020

2020 이미지 매칭 벤치마크 및 챌린지 발표

2020년 4월 2일(목) 구글 AI 리서치 블로그

일련의 이미지에서 3D 물체와 건물을 재구성하는 것은 SfM (Structure-from-Motion)으로 알려진 컴퓨터 비전에서 잘 알려진 문제입니다. 사진 및 문화유산 보존에 다양한 애플리케이션을 보유하고 있으며(예 : 사람들이 브라우저에서 Rapa Nui 조각품들을 탐색할 수 있도록 허용함) StreetView 및 항공 이미지에서 만든 3D 모델과 같은 Google Maps 전반에 걸쳐 많은 서비스를 제공합니다. 이러한 예에서, 이미지는 일반적으로 제어된 조건 하에서 운영자들에 의해 캡처됩니다. 이는 이미지에서 균일하고 고품질의 외관과 최종 재구성으로 동종의 데이터를 보장하지만 캡처된 사이트의 다양성과 보는 시점을 제한합니다. 엄격하게 통제된 조건의 이미지를 사용하는 대신 인터넷에서 자유롭게 사용할 수 있는 방대한 양의 비정형 이미지 컬렉션을 사용하여 SfM 기술을 적용하여 세상의 풍요러움을 더 잘 포착할 수 있다면 어떨까요?


이 주제에 대한 연구를 가속화하고 이미 공개된 데이터 양을 더 잘 활용하는 방법을 제시하기 위해 UVIC, CTU 및 EPFL과의 공동 작업인 “와이드 베이스라인 전체에서 이미지 매칭 : 논문에서 실습까지(Image Matching across Wide Baselines: From paper to Practice)” 논문은 3D 재구성 방법을 평가하는 새로운 공개 벤치마크를 제시합니다. CVPR 2019에서 열린 "제1회 이미지 매칭: 로컬 픽처 및 비욘드 워크샵(The first Image Matching: Local Features and Beyond)" 결과에 따라, 이 프로젝트에는 현재 25k 개 이상의 이미지가 포함되며, 각 이미지에는 정확한 포즈 정보(위치 및 방향)가 포함되어 있습니다. 이 데이터는 오픈소스 벤치마크로 공개적으로 제공되며 CVPR 2020에서 개최되는 Image Matching Challenge 2020의 기초입니다.(1)


야생에서 3D 구조 복구하기

Google지도는 이미 사용자들이 기증한 이미지들을 사용하여 방문자에게 인기 있는 위치를 알리거나 업무 시간을 업데이트합니다. 그러나 기증된 사진에는 다양한 관점, 조명 및 날씨 조건, 사람과 차량의 교합(occlusion) 및 가끔 사용자가 적용하는 필터가 있으므로 이러한 유형의 데이터를 사용하여 3D 모델을 만드는 것은 훨씬 더 어렵습니다. 아래의 예는 로마의 트레비 분수에 대한 다양한 이미지를 강조합니다.

[그림 1] 이미지 매칭 챌린지 데이터 세트에서 샘플링 한 일부 예제 이미지는 트레비 분수의 다른 관점을 보여줍니다.


일반적으로 3D 장면을 재구성하기 위해 SfM을 사용하는 것은 이미지의 어느 부분이 장면의 동일한 물리적 지점, 즉 창문의 모서리를 캡처하는지 식별하는 것으로 시작됩니다. 이는 여러 뷰에서 안정적으로 식별할 수 있는 이미지의 튀어나온 위치와 같은 로컬 픽처(local features)를 사용하여 수행됩니다. 여기에는 명소 지점 주변의 모양을 캡처하는 간단한 설명 벡터(모델 표현)가 포함되어 있습니다. 이들 디스크립터를 비교함으로써, 둘 이상의 이미지에 걸쳐 이미지 위치의 픽셀 좌표 사이의 대응 관계를 확립하고 삼각측량(triangulation)에 의해 포인트의 3D 위치를 되찾을 수 있습니다. 이미지가 캡처된 위치에서의 포즈와 관찰된 물리적 포인트의 3D 위치(예를 들어, 창문의 모서리가 카메라 위치에 상대적인 위치를 식별하는 것)를 함께 추정할 수 있습니다. 많은 이미지와 포인트를 통해 이 작업을 수행하면 매우 상세한 재구성을 얻을 수 있습니다.

[그림 2] 이전 그림의 이미지를 포함하여 3000 개가 넘는 이미지에서 생성된 3D 재구성.

더욱 강력한 추가 접근 방식은, 예를 들어, 사람과 같은 일시적인 요소의 포인트를 무시하여 로컬 픽처를 식별하고 격리하는 더 나은 방법을 설계하는 것입니다. 그러나 SfM의 기존 로컬 픽처 알고리즘의 단점을 더 잘 이해하고 향후 연구를 위한 기대할 수 있는 방향에 대한 통찰력을 제공하려면 성능을 측정할 수 있는 안정적인 벤치마크가 필요합니다.


3D 재구성을 위한 로컬 픽처의 평가를 위한 벤치마크

로컬 픽처는 이미지 검색 및 Google Lens의 상품 인식과 같은 많은 Google 서비스를 지원하며, 전통적이고 손수 만든 로컬 픽처를 사용하는 Google Maps's Live View와 같은 혼합 현실(Mixed Reality) 응용 프로그램에서도 사용됩니다. 로컬 픽처를 식별하고 설명하기 위해 더 나은 알고리즘을 설계하면 전반적인 성능이 향상됩니다.


그러나 이 목적을 위해 "실제(ground-truth)" 데이터를 수집하는 방법이 명확하지 않기 때문에 로컬 픽처 알고리즘의 성능을 비교하는 것은 어려웠습니다. 일부 컴퓨터 비전 작업은 크라우드 소싱에 의존합니다. Google의 OpenImages 데이터셋은 머신러닝 기술과 인간 주석을 결합하여 바운딩 박스 또는 픽셀 마스크로 "물체" 레이블을 지정합니다. 이 경우에는 "좋은" 로컬 픽처를 구성하는 요소가 무엇인지 알 수 없으므로 레이블링이 불가능하기 때문에 이 방법은 불가능합니다. 또한 HPatches와 같은 기존 벤치마크는 종종 평가 범위를 좁힐 수 있는 좁은 범위의 변형으로 제한되거나 작게 됩니다.


중요한 것은 재구성의 품질이며, 벤치마크는 새로운 접근법을 개발할 수 있는 기회를 강조하기 위해 실제 규모와 과제를 반영합니다. 이를 끝마치려면, 훈련 및 평가를 위한 대규모 이미지 데이터를 포함하는 최초의 벤치마크인 이미지 매칭 벤치마크를 만들었습니다. 데이터셋에는 25k 개 이상의 이미지(공개 YFCC100m 데이터 세트에서 제공)가 포함되어 있으며 각 이미지에는 정확한 자세 정보(위치 및 방향)가 추가되어 있습니다. 우리는 정확하고 안정적인 자세를 제공하는 대규모 SfM(각 장면에 대해 100 ~ 1000개의 이미지)에서 이 "가상(pseudo)" 실제(ground-truth) 데이터를 얻어 훨씬 더 어려운 문제인 하위 집합(이미지 10개)에 대해 평가를 실행합니다.  이 방법은 값 비싼 센서나 사람 레이블링이 필요하지 않으며 작고 균일한 데이터 세트로 제한되었던 이전 벤치마크보다 더 나은 프락시 메트릭을 제공합니다.

[그림 3] 

[그림 3] 상세 설명 - 벤치마킹에서 시각화. 다양한 로컬 기능 알고리즘으로 생성된 지점 간 일치를 보여줍니다. 왼쪽에서 오른쪽으로 : SIFT, HardNet, LogPolarDesc, R2D2. 자세한 내용은 당교 웹 사이트를 참조하십시오.


우리는이 벤치 마크, 데이터 세트 및 도전이 이종 이미지로 3D 재구성에서 최첨단 기술을 발전시키는 데 도움이되기를 바랍니다. 챌린지에 참여하고 싶다면 2020 이미지 매칭 챌린지 웹 사이트에서 자세한 내용을 확인하십시오.


감사의 말

벤치마크는 Yuhe Jin과 Kwang Moo Yi (빅토리아 대학), Anastasiia Mishchuk 및 Pascal Fua (EPFL), Dmytro Mishkin 및 Jiří Matas (체코 기술 대학교) 및 Eduard Trulls (Google)의 공동 작업입니다. CVPR 워크숍은 Vassileios Balntas (Scape Technologies / Facebook), Vincent Lepetit (Ecole des Ponts ParisTech), Dmytro Mishkin 및 Jiří Matas (Czech Technical University), Johannes Schönberger (Microsoft), Eduard Trulls (Google), 이광무 (빅토리아 대학교)와 함께 공동으로 운영했습니다.


(1) 참고 사항 - COVID-19 전염병에도 불구하고 2020 년 4월 2일 현재 CVPR은 현재 순조롭게 진행되고 있습니다. 상황이 진행됨에 따라 챌린지 정보가 업데이트됩니다. 자세한 내용은 2020 이미지 매칭 챌린지 웹 사이트를 참조하십시오.


원본 제목: 2020 이미지 매칭 벤치 마크 및 챌린지 발표(Announcing the 2020 Image Matching Benchmark and Challenge)
게시자 : Eduard Trulls, Google지도 연구 과학자
원본 링크: https://ai.googleblog.com/2020/04/announcing-2020-image-matching.html
Image Matching across Wide Baselines : From Paper to Practice 논문: https://arxiv.org/abs/2003.01587
Image Matching: Local Features & Beyond, CVPR 2020 Workshop: https://image-matching-workshop.github.io
Image matching benchmark 오픈소스: https://github.com/vcg-uvic/image-matching-benchmark
Google's OpenImages v6 dataset : https://storage.googleapis.com/openimages/web/index.html
HPatches: Homography-patches dataset: https://github.com/hpatches/hpatches-dataset
Yahoo Flickr Creative Commons 100 Million (YFCC100m) dataset: http://projects.dfki.uni-kl.de/yfcc100m/
HardNet model implementation 오픈소스: https://github.com/DagnyT/hardnet
Log Polar Descriptors 오픈소스: https://github.com/cvlab-epfl/log-polar-descriptors
Naver Labs Europe - R2D2: Repeatable and Reliable Detector and Descriptor: https://europe.naverlabs.com/research/publications/r2d2-reliable-and-repeatable-detectors-and-descriptors-for-joint-sparse-local-keypoint-detection-and-feature-extraction/
이 블로그는 2020년 4월 2일(목), Google AI Research Blog 기사를 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari