2020년 3월 20일(금) 구글 AI 리서치 블로그
로봇이 물체에 대한 액션(action)의 어포던스(affordance)를 직접 인식하는 법을 배울 수 있다는 아이디어(즉, 로봇이 물체로 할 수 있거나 할 수 없는 것)를 어포던스 기반 조작(affordance-based manipulation)이라고 하며, 물체를 잡는(grashing), 미는(pushing) 및 놓는(throwing)과 같은 복잡한 비전 기반 조작 기술을 학습하는 연구에서 탐구됩니다. 이러한 시스템에서, 어포던스는 로봇이 각 위치에서 미리 정의된 여러 모션 중 하나를 실행하는 것이 얼마나 좋은지를 추정하는 고밀도 픽셀 단위 동작 변수 맵으로 표시됩니다. 예를 들어, RGB-D 이미지가 주어지면, 어포던스 기반 그 래핑 모델은 컨벌루션 신경망(convolutional neural network)을 사용하여 픽셀 당 그래핑 어포던스를 추정할 수 있습니다. 각각의 픽셀에서의 파지 여유량 값은 대응하는 모션 프리미티브(예를 들어, 물체를 잡는 행위(grashing action))를 수행하는 성공률을 나타낼 것이고, 이는 그 후 가장 높은 값을 갖는 위치에서 로봇에 의해 실행될 것이다.
이와 같은 방법의 경우 물리적인 시행착오를 통한 데이터 수집에 많은 시간과 비용이 소요될 수 있으므로 적은 데이터로 더 많은 작업을 수행할 수 있는 능력이 매우 중요합니다. 그러나 전이 학습에서 최근 발견들은 대규모 컴퓨터 비전 데이터셋에서 얻은 시각적 기능 표현을 딥러닝 에이전트에 재사용할 수 있어 비디오 게임 및 시뮬레이션 환경에서 더 빠르게 학습하고 정규화할 수 있습니다.
픽셀에서 동작으로 매핑되는 엔드-투-엔드 어포던스 기반 로봇 학습 모델이 이와 같은 시각적 표현의 장점을 얻을 수 있다면, 적은 양의 훈련으로 실제 상호 작용을 위한 유용한 기술을 보다 효율적으로 배우기 위해 현재 사용 가능한 방대한 양의 시각적 데이터를 활용할 수 있습니다.
ICRA 2020에서 MIT 연구원들과의 협업을 통해 “액션을 학습하기 전 볼 수 있는 학습하기 : 시각적 사전 훈련(Learning to See before Learning to Act: Visual Pre-training for Manipulation)” 논문에서, 우리는 기존의 사전 훈련된 딥러닝 비주얼 픽처 표현이 물체 파악과 같은 로봇 조작 학습의 효율성을 향상할 수 있는지 조사합니다.
비전 모델과 어포던스 기반 조작 모델 간에 신경망 가중치를 지능적으로 전달할 수 있는 방법을 연구함으로써, 다양한 시각적 특징 표현이 탐색 프로세스에 어떻게 도움이 되는지 평가하고 로봇이 다른 잡이(grippers)를 사용하여 조작 기술을 신속하게 획득할 수 있게 합니다. 우리는 딥러닝 모델을 사전 훈련시키는 실용적인 기술을 제시합니다. 이를 통해 로봇은 10분 이내에 시행착오를 거치지 않고 비정형 구조의 환경에서 임의의 물체를 고르고(pick) 잡는(grasp) 방법을 학습할 수 있습니다.
[그림 2] 상세 설명 - 먼저 배우는 것이 로봇이 행동하는 법을 배우는 속도를 향상하는가? 이 프로젝트에서는 컴퓨터 비전 작업(왼쪽)에서 로봇 조작 작업(오른쪽)으로 배운 지식을 전달할 수 있는 방법을 연구합니다.
어포던스 기반 조작을 위한 전이 학습
어포던스 기반 조작은 본질적으로 조작 작업을 컴퓨터 비전 작업으로 재구성하는 방법이지만 픽셀을 객체 레이블로 참조하는 대신 픽셀을 동작 값에 연결합니다. 컴퓨터 비전 모델과 어포던스 모델의 구조는 매우 유사하기 때문에 컴퓨터 비전의 전이 학습 기술을 활용하여 어포던스 모델이 적은 데이터로 더 빨리 학습할 수 있습니다. 이 접근법은 로봇 비전을 위한 여유도 모델의 네트워크 가중치를 초기화하기 위해 대규모 비전 데이터셋에서 학습한 사전 훈련된 신경망 가중치 (즉, 특징 표현(feature representations))를 재사용합니다.
컴퓨터 비전에서, 많은 심층 모델 구조들은 "백본"과 "헤드"의 두 부분으로 구성되어 있습니다. 백본은 초기 단계의 영상 처리를 담당하는 가중치(예: 에지 필터링, 모서리 감지, 색상 구분)로 구성되는 반면, 헤드는 높은 수준의 특징 식별, 상황적 단서 인식, 공간적 이유 실행 등 후기 처리에 사용되는 네트워크 가중치로 구성됩니다. 따라서, 사전 훈련된(예를 들어, ResNet) 전이 학습에서 각 새 작업에 대해 모델 헤드의 가중치를 무작위로 초기화하면서 작업 간에 백본 가중치를 공유하는 것이 일반적입니다.
이 레시피에 따라, 우리는 ResNet-50 아키텍처를 기반으로 하는 백본으로 어포던스 기반 조작 모델을 초기화하고 ImageNet의 분류 모델과 COCO의 분할 모델을 포함한 다양한 비전 작업에 대해 사전 훈련을 받았습니다. 서로 다른 초기화로 로봇은 시행착오를 통해 다양한 객체 세트를 파악하는 방법을 배웠습니다.
처음에 우리는 처음부터 훈련에 비해 성능이 크게 향상되지는 않았습니다. 훈련 목표에 대한 성공률을 파악하는 것은 1,000번의 시행착오 시도 후에 만 77%까지 상승할 수 있었습니다. 그러나, 사전 훈련된 COCO 비전 모델의 백본과 헤드에서 네트워크 가중치를 이전한 결과, 500번의 시행착오 파악 시도에서 훈련 속도의 grasp 성공률이 73%에 이르렀으며, 1,000번의 시도만으로 86%로 뛰어올랐습니다. 또한 훈련 중에 보이지 않는 새로운 물체에 대한 모델을 테스트한 결과 COCO의 사전 훈련된 백본이 있는 모델이 더 일반적으로 나타남을 발견했습니다. 물체를 붙잡는(grapshing) 성공률은 사전 훈련된 백본만으로 83%에 도달하고 사전 훈련된 백본과 헤드 모두에서 90%로 추가로 개선되어 처음부터 훈련된 모델에 도달한 46 %를 능가합니다.
[그림 3] 상세 설명 - 처음부터 훈련된 경제성 기반 파악 모델은 60 분의 훈련 (왼쪽) 후에 새로운 물체를 집어 올리는데 어려움을 겪을 수 있습니다. 시각적 작업을 통한 사전 교육을 통해 우리의 여유 기반 기반 파악 모델은 다른 하드웨어 (중간 : 흡입, 오른쪽 : 그리퍼)로 평가할 때도 10 분 미만의 훈련으로 새로운 물체를 집어 올리도록 쉽게 일반화할 수 있습니다.
탐색을 향상할 수 있는 전이 학습
(물체를) 잡는 로봇(Grasping Robot)에 대한 실험에서, 우리는 백본만 전달하는 것이 아니라 미리 훈련된 비전 모델의 백본과 머리 둘 다의 네트워크 가중치가 보조 모델로 이전될 때 생성된 데이터 세트의 성공적인 그래프 대 실패의 분포가 훨씬 더 균형을 이루었다는 것을 관찰했습니다.
[그림 4] 상세 설명 - ImageNet에서 미리 훈련된 가중치, 백본 및 헤드의 무작위 초기화, COCO 사전 훈련된 백본만 해당, COCO에 대해 훈련된 백본과 헤드를 사용한 50회 시도 중 성공한 그래프의 수입니다.
그러한 결과는 물체 지역화 (예 : COCO와 같은 인스턴스 세분화)이 필요한 비전 작업에서 네트워크 가중치를 재사용하면 조작 작업을 학습할 때 탐색 프로세스를 크게 개선할 가능성이 있음을 시사합니다. 이러한 작업에서 사전 훈련된 가중치는 로봇이 물체와 유사한 것으로 보이는 물체에 대한 동작을 샘플링하도록 하여 시스템이 균형 잡힌 데이터셋을 신속하게 생성하여 시스템이 좋은 파악과 나쁜 파악의 차이를 배울 수 있도록 합니다. 반대로 물체의 공간 정보 (예 : ImageNet과 같은 이미지 분류)를 버릴 수 있는 비전 작업에서 사전 훈 된 가중치는 무작위 초기화에 비해 약간의 성능만 향상할 수 있습니다.
이를 더 잘 이해하기 위해 다양한 사전 훈련된 모델에 의해 트리거 되는 뉴럴 활성화(neural activation)들과 흡입 그리퍼(suction gripper)를 사용하여 처음부터 훈련된 converged affordance 모델을 시각화합니다. 흥미롭게도, 우리는 COCO 데이터 세트로부터의 분할에 사용된 비전 모델의 헤드로부터 배운 중간 네트워크 표현이 수렴된 비용 모델과 유사한 방식으로 객체를 활성화시킨다는 것을 발견했습니다. 이는 가능한 많은 비전 모델(백본 및 헤드 모두)을 전송하면 시각적 특징을 포착하고 객체를 지역화하는 데 더 나은 모델 가중치를 활용하여 객체 중심 탐색을 더 많이 수행할 수 있다는 아이디어와 일치합니다.
[그림 5] 상세 설명 - 어수선한 물체의 이미지에서 다른 모델에 의해 예측된 어포던스(a). (b) 랜덤은 임의로 초기화된 모델을 말합니다. (c) ImageNet은 ImageNet에 사전 훈련된 백본과 임의로 초기화된 헤드가 있는 모델입니다. (d) 표준(normal)은 반중력 축에 가까운 표면 표준이 있는 픽셀을 감지하도록 사전 훈련된 모델을 말합니다. (e) COCO는 COCO 데이터 세트에 대해 훈련된 수정된 세분화 모델(Mask R-CNN)입니다. (f) 흡입은 흡입 그리퍼를 사용하여 로봇 환경 상호 작용에서 학습된 컨버지드(converged) 모델입니다.
한계와 미래의 할 일
오늘날 엔드-투-엔드 로봇 학습에 사용하는 많은 방법은 컴퓨터 비전 작업에 사용되는 방법과 사실상 동일합니다. 시각적 사전 훈련에 대한 우리의 작업은 이러한 연결을 조명하고 시각적 사전 훈련 기술을 활용하여 로봇이 물체를 잡는 작업에 적용되는 어포던스 기반 조작의 학습 효율성을 향상할 수 있음을 보여줍니다. 우리의 실험은 로봇에 대한 딥러닝에 대한 이해를 높이는 데 도움이 되지만 아직 탐구하지 않은 흥미로운 질문이 많이 있습니다. 예를 들어, 추가 감지 모드 (예 : force-torque 또는 tactile)를 위해 대규모 사전 훈련을 어떻게 활용합니까? 이러한 사전 훈련 기술을 파악하는 것만큼 물체 중심적이지 않을 수 있는 보다 복잡한 조작 작업으로 어떻게 확장할 수 있습니까? 이 분야는 향후 연구를 위한 유망한 방향입니다.
이 작업에 대한 자세한 내용은 아래 요약 비디오에서 확인할 수 있습니다.
감사의 말
이 연구는 Yen-Chen Lin (MIT 박사), Andy Zeng, Shuran Song, Phillip Isola (MIT 교수) 및 Tsung-Ii Lin이 수행했으며, 귀중한 경영진 지원에 대해 Johnny Lee와 Ivan Krasin, 논문에 대한 피드백에 대해 Chad Richards, 유익한 기술 토론에 대하여 Jonathan Thompson 님께 각각 특별한 감사를 드립니다.
원본 제목: 로봇 조작을 위한 시각적 전이 학습(Visual Transfer Learning for Robotic Manipulation)
게시자 : Yen-Chen Lin, Research Intern 및 Andy Zeng, Google 로봇 공학 연구원
원본 링크: https://ai.googleblog.com/2020/03/visual-transfer-learning-for-robotic.html
Learning to See before Learning to Act: Visual Pre-training for Manipulation 논문: https://yenchenlin.me/vision2action/
Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning 논문: https://vpg.cs.princeton.edu
Deep Residual Learning for Image Recognition 논문: https://arxiv.org/abs/1512.03385
Mask R-CNN 논문: https://arxiv.org/abs/1703.06870
Mid-Level Visual Representations Improve Generalization and Sample Efficiency for Learning Visuomotor Policy 논문: https://arxiv.org/pdf/1812.11971.pdf
이 블로그는 2020년 3월 20일 (금), Google AI Research Blog 기사를 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)