brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Feb 27. 2020

말로 지면 작업들을 위한 스트리트뷰 파노라마의 접근개선

2020년 2월 25일 (화) 구글 AI 리서치 블로그

자연어 처리컴퓨터 비전 모두에서 상당한 발전이 이루어지고 있지만, 리서치 커뮤니티는 여전히 실제 시각적 상황에서 명령을 해석하고 해당 명령에 따라 적절한 조치를 취할 수 있는 컴퓨터 에이전트를 갖고 있지 않습니다. 로봇을 포함한 에이전트들은 새로운 환경을 탐색하는 법을 배울 수는 있지만, “철도 트랙에서 빨간 소화전을 지나 좌회전하십시오. 그런 다음 세 블록으로 가서 입구 앞에 한 줄로 깃발들이 놓여 있는 건물 앞에서 멈춰주십시오.” 그렇게 하려면 기차 트랙, 빨간 소화전 및 깃발 등과 같은 구두 설명을 시각적인 보기와 관련시키고, 블록이 무엇인지 이해하고 계속해서 왼쪽으로 움직여 행동으로 옮기는 것과 같은 공간 구성에 따라 3개의 깃발들을 세는 방법을 이해해야 합니다. 


이 형태의 기초 언어 이해 문제는 사람들에게는 쉽지만 현재 에이전트에게는 어렵고 언어, 인식 및 행동을 종합하며 성공적인 완료에 대한 평가는 간단하다는 점에서 계산을 요구하는 지능에 대한 연구를 위한 훌륭한 시험대입니다. 이러한 문제에 대한 진전은 에이전트들이 사람들과의 움직임과 행동을 조정하는 능력을 크게 향상할 수 있습니다. 그러나 강력한 모델을 개발하기에 충분히 크고 다양한 데이터셋을 찾거나 만드는 것은 어렵습니다.


지면의 언어 이해 작업에 대한 에이전트를 빠르게 훈련하고 평가하기 위한 이상적인 리소스는 광범위하고 시각적으로 풍부한 가상 세계를 표현할 수 있는 스트리트 뷰 이미지입니다. 스트리트 뷰는 Google지도와 통합되며 수십억 개의 거리 수준 파노라마로 구성됩니다. 코넬 테크 (Cornell Tech)의 연구원들이 만든 Touchdown  데이터셋은 스트리트 뷰 (Street View)를 사용하여 기초적인 언어 이해에 대한 연구를 이끌어내는 훌륭한 예입니다. 그러나 스트리트 뷰 파노라마에 대한 액세스 제한으로 인해 Touchdown은 파노라마 자체가 아닌 파노라마 ID만 제공할 수 있기 때문에 광범위한 리서치 커뮤니티가 Touchdown의 작업인 거리를 통한 내비게이션을 위한 명령이 제공되는 비전 및 언어 내비게이션(VLN, vision-and-language navigation) 및 주어진 시점에서 공간 설명을 해석해야 하는 SDR(Spatial Description Resolution)에서 작업하기가 어려운 경우가 있습니다. 


"Retuouchdown :  Adding Touchdown to StreetLearn as a Sharable Resource for Language Grounding Tasks in Street View" 논문에서, 우리는 터치다운 작업에서 참조된 스트리트 뷰 파노라마를 딥마인드가 제작한 기존 StreetLearn 데이터셋에 추가하여 이 문제를 해결합니다. 이 데이터를 사용하려면, Touchdown에 정의된 작업과 완전히 호환되는 모델을 생성합니다. 또한 VALAN 툴킷의 일부로 Touchdown 작업을 위한 오픈소스 TensorFlow 구현을 제공했습니다.


지면의 언어 이해 작업

터치다운의 두 가지 지면의 언어 이해 작업들은 내비게이션 모델의 벤치마크로 사용할 수 있습니다. VLN에는 한 거리에서 다른 거리로 지시를 따르는 것이 포함되며 SDR에서는 주변 시각적 콘텍스트를 기반으로 설명이 제공되는 스트리트 뷰 파노라마에서 점을 식별해야 합니다. 두 가지 작업이 아래 애니메이션에서 함께 수행되는 것으로 표시됩니다.

[그림 1]

[그림 1] 상세 내용 - 터치다운 명령을 따르는 사람의 애니메이션 예 : “파라솔들이 오른쪽에 오도록 자신을 향하게 하십시오. 직진하여 첫 번째 교차로에서 우회전하십시오. 다음 교차로에는 왼쪽에 구식 상점이 있어야 합니다. 오른쪽에는 공룡 벽화가 있습니다. 터치다운은 공룡의 뒷면에 있습니다.”


터치다운의 VLN 작업은 인기 있는 Room-to-Room(R2R) 내비게이션 데이터셋에서 정의된 것과 유사하지만 스트리트 뷰는 시각적 다양성이 훨씬 넓고 이동의 자유도가 더 높다는 점을 제외합니다. Baseline models in Touchdown의 성능은 언어 및 시각적 표현, 통합 및 조건에 따라 행동하는 학습을 포함하여 작업의 많은 측면에서 혁신과 개선을 위한 상당한 공간을 남겨 둡니다.


그러나 광범위한 리서치 커뮤니티가 Touchdown의 작업을 수행할 수 있도록 하지만 Google Maps/Google Earth 서비스 약관을 준수하고 Google과 개인의 요구를 보호하기 위해서는 특정 보호 조치가 필요합니다. 예를 들어 파노라마를 대량 다운로드하거나 무기한 저장할 수 없습니다 (예 : 개인이 특정 파노라마를 제거하도록 요청할 수 있음). 따라서 연구원은 데이터를 사용하면서 이러한 용어를 준수하면서 파노라마를 주기적으로 삭제하고 새로 고침을 해야 합니다.


StreetLearn: 연구용으로 승인된 파노라마 데이터셋

스트리트 뷰 파노라마와 상호 작용하는 다른 방법은 DeepMind에 의해 작년 StreetLearn 데이터 릴리스와 함께 만들어졌습니다. StreetLearn으로 관심 있는 연구자들은 뉴욕시와 피츠버그 지역의 114k 파노라마 세트에 대한 액세스를 요청하는 양식을 작성할 수 있습니다. 최근에 StreetLearn은 Google 지도 지침을 따르는 에이전트 교육 및 평가를 포함하여 the StreetNav task suite을 지원하는 데 사용되었습니다. Touchdown 및 Room-to-Room과 같은 VLN 작업입니다. 그러나 사람들이 제공하는 자연어를 사용하지 않는다는 점에서 크게 다릅니다.


또한 StreetLearn의 파노라마가 터치다운과 동일한 맨해튼 영역을 커버하더라도 터치다운 주석 프로세스 중에 사용된 정확한 파노라마가 필요하기 때문에 터치다운에 정의된 작업을 다루는 연구에는 적합하지 않습니다. 예를 들어, 터치다운 작업에서 언어 지침은 자동차, 자전거 및 소파와 같은 순간적으로 보이는 물체들을 나타냅니다. 다른 기간의 스트리트 뷰 파노라마에는 이러한 객체가 포함되어 있지 않을 수 있으므로 기간에 따라 지침이 안정적이지 않습니다.

[그림 2]

[그림 2] 상세 설명 - 터치다운 지시 :“왼쪽에 주차된 자전거 2 대와 버려진 소파. 이 소파를 지나서 다른 주차된 자전거를 타기 전에 멈추십시오. 이 자전거는 흰색과 빨간색이며 흰색 시트가 있습니다. 터치다운이 자전거 시트 위에 있습니다.” 다른 시간에 촬영한 동일한 위치의 다른 파노라마는 이러한 정확한 항목을 동일한 위치에 포함하지 않을 가능성이 높습니다. 구체적인 예를 보려면, the current imagery available for this location를 보십시오. 여기에는 매우 다른 순간적으로 보이는 물체들이 포함되어 있습니다.


또한 SDR에는 특정 파노라마에 대한 여러 시점의 적용 범위가 필요합니다. 예를 들어 다음 파노라마는 이전 파노라마에서 한 단계 아래에 있습니다. 그것들은 비슷하게 보일지 모르지만 실제로는 상당히 다릅니다. 두 파노라마에서 왼쪽에 보이는 자전거는 같지 않습니다. 터치다운의 위치는 위의 파노라마 중간(자전거 좌석)의 중앙에 있습니다. 두 번째 파노라마에서 왼쪽 하단으로 따라서 SDR 문제의 픽셀 위치는 파노라마마다 다르지만 명령에서 참조한 실제 위치와 일치합니다. 이는 VLN 및 SDR 명령어를 함께 따르는 엔드-투-엔드 작업에서 특히 중요합니다. 에이전트가 중지되면 정확한 위치에 관계없이 SDR 작업을 완료할 수 있어야 합니다 (대상이 표시되는 경우).

[그림 3] 이전 장면에서 한 단계 더 떨어진 파노라마.

또 다른 문제는 파노라마 간격의 입도가 다르다는 것입니다. 아래 그림은 맨해튼의 StreetLearn (파란색) 및 터치다운(빨간색) 파노라마 간의 겹침을 보여줍니다. 두 데이터셋 모두(검은색)에서 동일한 ID를 공유하는 710개의 파노라마(29,641 개 중)가 있습니다. 터치다운은 맨해튼의 절반을 커버하며 파노라마의 밀도는 비슷하지만 방문한 노드의 정확한 위치는 다릅니다.

StreetLearn에 터치다운 파노라마 추가 및 모델 기준 확인

Retouchdown은 원래 Google 및 개인의 권리를 준수하고 연구원에 대한 액세스를 단순화하고 재현성을 향상하도록 설계된 StreetLearn과 함께 Touchdown의 전파 방식을 조정합니다. Retouchdown에는 광범위한 리서치 커뮤니티가 Touchdown 작업을 효과적으로 수행할 수 있도록 하는 데이터와 코드가 모두 포함되어 있습니다. 가장 중요한 것은 데이터에 대한 액세스를 보장하고 재현성을 용이하게 하는 것입니다. 이를 위해 터치다운 파노라마를 StreetLearn 데이터셋에 통합하여 연구용으로 승인된 144k 파노라마 (26% 증가)의 새로운 StreetLearn 버전을 만들었습니다.


우리는 또한 VLN 및 SDR에 대한 모델을 다시 구현했으며 원래 터치다운 용지에서 얻은 결과보다 성능이 우수하거나 더 우수함을 보여줍니다. 이러한 구현은 VALAN 툴킷의 일부로 오픈 소스입니다. 아래의 첫 번째 그래프는 VLN 작업을 다시 구현하는 Chen et al.(2019)의 결과를 비교합니다. 여기에는 SDTW 메트릭이 포함되는데, 이 기준은 성공적인 완료 및 실제 참조 경로에 대한 충실도를 모두 측정합니다. 아래의 두 번째 그래프는 SDR 작업과 동일한 비교를 합니다. SDR의 경우 모델의 예측이 이미지에서 목표 위치의 n픽셀 내에 있는 시간의 백분율을 제공하는 정확도 @npx 측정값을 보여줍니다. 모델과 프로세싱에서 약간의 차이들이 있기 때문에 결과가 약간 나아지지만 가장 중요한 결과는 업데이트된 파노라마가 터치다운 작업에 대한 향후 모델링을 완벽하게 지원할 수 있다는 것입니다.


[그림 4]

[그림 4] 상세 설명 - Chen et al.(2019) 성능 비교. 원본 파노라마(파란색)를 사용하고 StreetLearn에서 사용할 수 있는 파노라마(빨간색)를 사용하여 다시 구현했습니다. 위: SDTW (Dynamic Time Warping)에 의해 가중된 작업 완료, 최단 경로 거리 및 성공에 대한 VLN 결과. 하단: 정확도 @npx 지표에 대한 SDR 결과.


데이터 얻기

파노라마 작업에 관심이 있는 연구원들은 StreetLearn interest form을 작성해야 합니다. 승인을 받으면 다운로드 링크가 제공됩니다. StreetLearn 팀이 데이터 업데이트를 알릴 수 있도록 정보가 보관됩니다. 이것은 Google과 참여 연구원들 모두가 쉽고 효과적으로 분해 요청들을 하도록 합니다.  지침 및 파노라마 연결 데이터는 Touchdown github 리포지토리에서 얻을 수 있습니다.


우리는 이러한 추가적인 파노라마를 출시하면 리서치 커뮤니티가 이 어려운 언어 이해 과제에 대해 더 진전할 수 있기를 바랍니다.


감사의 말

핵심 팀에는 Yoav Artzi, Eugene Ie 및 Piotr Mirowski가 포함됩니다. 특히 Radu Soricut과 같은 Google Research의 언어팀 이 작품에 기여한 의견을 포함하여 코드 및 오픈 소스에 대한 도움을 주신 Touchdown 결과, Larry Lansing, Valts Blukis 및 Vihan Jain의 재현에 도움을 준 Howard Chen에게 감사의 말씀을 전하고 싶습니다. 데이터 액세스 및 릴리스에 대한 지원에 대한 Google지도 및 Google 스트리트 뷰 팀과 파노라마 검토에 대한 데이터 컴퓨팅팀에도 감사드립니다.


원본 제목: 말로 지면 작업들을 하기 위한 스트리트뷰 파노라마의 리서치 커뮤니티들의 접근 개선하기(Enhancing the Research Community’s Access to Street View Panoramas for Language Grounding Tasks)

게시자 : Harsh Mehta, 소프트웨어 엔지니어 및 Jason Baldridge, Google Research 연구원
원본 링크: https://ai.googleblog.com/2020/02/enhancing-research-communitys-access-to.html
Touchdown 오픈소스: https://github.com/lil-lab/touchdown
VALAN(Vision and Language Agent Navigation) 오픈소스: https://github.com/google-research/valan
이  블로그는 2020년 2월 25일(화), Google AI Research Blog 기사를 영어에서 우리나라 말로 번역한   것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게   저작권이 있음을 알려 드립니다. (First Draft Version)



매거진의 이전글 TensorFlow 제약조건 최적화 라이브러리로 공정성
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari