brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Mar 08. 2020

Open Images V6:현지화된 서술의 새로운 특징

2020년 2월 26일 (수) 구글 AI 리서치 블로그 

Open Images는 컴퓨터 비전 작업을 위한 최신 심층 컨볼루션 신경망(CNN) 훈련에 사용하기 위해 여러 측면에서 가장 큰 주석이 달린 이미지 데이터셋입니다. 지난해 5 월 버전 5가 소개되면서 Open Images 데이터셋에는 36M 이미지 레벨 레이블이 붙은 9M 이미지, 15.8M 경계 상자, 2.8M 인스턴스 세그먼트 및 391k 시각적 관계가 포함됩니다. 데이터셋 자체와 함께 관련 Open Images Challenges는 물체 감지, 인스턴스 분할 및 시각적 관계 감지의 최신 기술의 발전을 촉진했습니다.

[그림 1]

[그림 1] 상세 설명 - Open Images V5의 주석 방식 : 이미지 레벨 레이블, 경계 상자, 인스턴스 분할 및 시각적 관계. 이미지 출처: 1969 D. Miller의 Camero RS/SSanita kluska의 the houseAri Helminen의 Cat Cafe Shinjuku calico, Radiofiera - Villa Cordellina Lombardi, Montecchio Maggiore (VI) - agosto 2010 by Andrea Sartorati. 모든 이미지들은 Radiofiera CC BY 2.0 라이선스 됨. 


오늘날 우리는 Open Images V6의 출시 발표에 대해 기쁩니다. Open Images V6은 Open Images 데이터셋의 주석을 새로운 시각적 관계(예 : "플라잉 디스크를 잡는 개"), 인간 행동 주석 (예 : "여성 점프") 및 이미지 수준 라벨 (예: '페이즐리 직물'). 특히, 이 릴리스에는 설명된 물체에 대해 동기화된 음성, 텍스트 및 마우스 추적으로 구성된 완전히 새로운 형태의 다중 모드 주석인 현지화된 서술이 추가되었습니다. Open Images V6에 서이 현지화된 서술은 500k의 이미지에 사용할 수 있습니다. 또한 이전 작품과의 비교를 용이하게 하기 위해 COCO 데이터셋의 전체 123k 이미지에 대한 현지화된 서술을 출시합니다.


https://youtu.be/mZqHVUstmIQ

[그림 2] 현지화된 서술 샘플. 이미지 출처 : Spring is here :-) by Kasia.

현지화된 서술

현지화된 서술의 배후에 있는 동기 부여들 중 하나는 일반적으로 이미지 캡션을 통해 수행되는 비전과 언어 사이의 연관성을 연구하고 활용하는 것입니다. 이미지는 사람이 작성한 텍스트 설명과 내용이 결합되어 있습니다. 그러나 이미지 캡션의 한계 중 하나는 시각적 주석이 부족하다는 것입니다. 즉, 텍스트 설명의 단어 이미지에 대한 현지화가 없습니다. 이를 완화하기 위해 이전의 일부 연구에서는 설명에 나오는 명사에 대한 경계 상자를 귀납적으로(a-posteriori) 그렸습니다. 반대로 현지화된 서술에서는 텍스트 설명의 모든 단어들의 근거로 사용됩니다.

[그림 3]

[그림 3] 상세 설명 - 이미지 내용과 캡션 사이의 접지 수준이 다릅니다. 왼쪽에서 오른쪽으로: 전체 이미지 캡션(COCO); 상자 명사(Flickr30k Entities); 마우스 추적 세그먼트에 대한 각 단어 (현지화된 서술). 이미지 출처: COCO, Flickr30k Entities 및 베트남의 Sapa, Rama.


현지화된 서술은 이미지에 대한 음성 설명을 제공하는 동시에 설명하는 영역 위로 마우스를 가져가면서 마우스로 움직입니다. 음성 주석은 설명을 참조하는 이미지의 영역과 설명을 직접 연결하므로 접근방식의 핵심입니다. 설명을 보다 쉽게 이용할 수 있도록 하기 위해 어노테이터(annotator)는 설명을 수동으로 번역한 다음 자동 음성 녹음 결과와 정렬되었습니다. 이렇게 하면 주석에 대한 타임스태프들(Timestamps)이 복구되어 세 가지 양식들(음성, 텍스트 및 마우스 추적)이 정확하고 동기화됩니다.

[그림 4] 수동 및 자동 전사의 정렬. Freepik의 독창적인 디자인을 기반으로 한 아이콘.

말하기와 그 위치가 동시에 매우 직관적이기 때문에 어노테이터에게 작업에 대한 모호한 지시를 줄 수 있습니다. 이것은 사람들이 이미지를 묘사하는 방법을 연구하기 위한 잠재적인 연구 수단으로 만듭니다. 예를 들어, 순환, 긁힘, 밑줄 등 물체의 공간 범위를 나타낼 때 다양한 스타일을 관찰하여 새로운 사용자 인터페이스 디자인에 대한 유용한 통찰력을 얻을 수 있습니다.

[그림 5]

[그림 5] 상세 설명 - 이미지 아래 단어에 해당하는 마우스 추적 세그먼트. 이미지 출처: Via Guglielmo Marconi, Positano-Hotel Le Agavi-boat by Elliott Brown, air frame by vivek jena, CL P1050512 by Virginia State Parks.


이 현지화된 서술이 나타내는 추가 데이터의 양을 이해하기 위해, 마우스 추적의 총길이는 ~ 6400km이며, 멈추지 않고 소리 내어 읽으면 모든 주석들을 듣는 데 ~1.5 년이 걸립니다!


새로운 시각적 관계, 인간 행동 및 이미지 레벨 주석

현지화된 서술 외에도 Open Images V6에서는 시각적 관계 주석의 유형을 최대 1.4k까지 증가시켜서 "스케이트 보드를 타는 사람", "남자와 여자의 손을 잡고 있는 사람", "비행 디스크를 잡는 개" 등을 추가시킬 수 있습니다.

[그림 6] 이미지 출처 : James Buck의 IMG_5678.jpg, Quentin Meulepas의 DSC_0494 및 sally9258의 DSC06464

이미지에 있는 사람들은 컴퓨터 비전의 핵심이 되어 왔으며, 사람들이 무엇을 하고 있는지 이해하고 이해하는 것이 많은 응용 분야에서 가장 중요합니다. 그렇기 때문에 Open Images V6에는 "점프", "웃음"또는 "지연"과 같은 독립형 작업을 수행하는 사람의 2.5M 주석이 포함됩니다.

[그림 7] 이미지 출처 : Boo Ph의 _DSCs1341 (2), Johannes Gärtner의 Richard Wagner Spiele 2015.

마지막으로, 2,300만 개의 새로운 인간 검증 이미지 레벨 레이블을 추가하여 거의 20,000개의 범주에서 총 59.9M에 도달했습니다.


결론

Open Images V6는 이미지 분류, 객체 감지, 시각적 관계 감지 및 인스턴스 분할을 위한 통합 주석을 개선하기 위한 질적 및 양적 단계이며, 비전과 언어를 현지화된 서술과 연결하는 새로운 접근 방식을 취합니다. Open Images V6가 진정한 장면 이해를 향한 진전을 더욱 자극할 수 있기를 바랍니다.


원본 제목: Open Images V6 — 새로운 특징의 현지화된 서술(Open Images V6 — Now Featuring Localized Narratives)
게시자 : Jordi Pont-Tuset, Google Research 연구 과학자
원본 링크: https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html
Filickr30K Entities DataSet: https://github.com/BryanPlummer/flickr30k_entities
이  블로그는 2020년 2월 26일(수), Google AI Research Blog 기사를 영어에서 우리나라 말로 번역한   것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게   저작권이 있음을 알려 드립니다. (First Draft Version)
매거진의 이전글 ML 프레임워크를 위한 인간 중심 디자인을 향하여
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari