brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Apr 01. 2020

Dreamer소개:월드모델을 이용한 확장가능한 강화학습

2020년 3월 18일(수) 구글 AI 리서치 블로그

지능적인 에이전트(artificial agent)가 목표를 달성하기 위해 어떻게 action을 선택할 수 있는 방법에 대한 연구는 강화 학습(Reinforcement Learning, RL)의 사용으로 인해 크게 발전하고 있습니다. 시행착오를 통해 성공적인 action을 예측하는 법을 배우는 model-free 접근에서  RL 방식으로 DeepMind의 DQN은 Atari 게임을, AlphaStar는 Starcraft II에서 세계 챔피언을 이길 수 있었습니다. 그러나 실제 세계의 시나리오에 대한 유용성을 한계를 가지면서 많은 양의 환경 상호작용이 필요합니다.


반대로, 모델 기반 RL방식은 단순화된 환경 모델을 추가로 학습합니다. 이 월드 모델을 통해 상담원은 잠재적인 행동 순서의 결과를 예측할 수 있으므로 가상 시나리오를 통해 새로운 상황에서 정보에 근거한 결정을 내릴 수 있으므로 목표 달성에 필요한 시행착오를 줄일 수 있습니다. 과거에는 정확한 월드 모델을 학습하고 이를 활용하여 성공적인 행동을 배우는 것이 어려웠습니다. 당사의 Deep Planning Network(PlaNet)와 같은 최근의 연구는 이미지에서 정확한 월드 모델을 학습함으로써 이러한 한계를 극복했지만, 비효율적이거나 계산 비용이 많이 드는 플랜 메커니즘에 의해 모델 기반 접근 방식이 여전히 보류되어 어려운 작업을 해결하는 능력이 제한되었습니다.


오늘은 DeepMind와 공동으로 이미지에서 월드 모델을 배우고 이를 사용하여 시선을 끄는 행동을 배우는 RL 에이전트인 Dreamer를 소개합니다. Dreamer는 월드 모델을 활용하여 모델 예측을 통한 역전파(backpropagation)를 통해 행동을 효율적으로 학습합니다. 에이전트는 원본 이미지에서 컴팩트 모델 상태(compact model states)를 계산하는 것을 학습함으로써 단 하나의 GPU를 사용하여 수천 개의 예측된 시퀀스에서 동시에 효율적으로 학습할 수 있습니다. Dreamer는 원본 이미지 입력을 고려한 20개의 연속 제어 작업 벤치마크에서 새로운 성능, 데이터 효율성 및 계산 시간을 달성합니다. RL의 발전을 촉진하기 위해 리서치 커뮤니티에 소스코드를 공개하고 있습니다.


Dreamer는 어떻게 작동합니까?

Dreamer는 모델 기반 방법에 일반적인 세 가지 프로세스로 구성됩니다. 세계 모델 학습, 세계 모델의 예측을 통한 행동 학습 및 환경에서 학습된 행동을 실행하여 새로운 경험을 수집합니다. 


Dreamer는 모델 기반 메서드에 일반적인 세 가지 프로세스로 구성됩니다. 첫째, 월드 모델을 학습합니다. 둘째, 월드 모델에 의한 예측의 행동 학습(behaviors learning)하는 것입니다. 그리고 마지막으로 새로운 경험을 수집하기 위해 환경에서 학습한 행동(behaviros)을 실행합니다. behavior을 학습하려면,  Dreamer는 value 네트워크를 사용하여 계획 범위를 넘어 보상을 고려하고 actor 네트워크를 통해 효과적으로 행동을 계산합니다. 에이전트가 목표를 달성할 때까지 병렬로 실행될 수 있는 세 가지 프로세스가 반복됩니다.

[그림 1]

[그림 1] 상세 설명 - Dreamer 에이전트의 세 가지 프로세스. 월드 모델은 과거 경험에서 배웁니다. 이 모델의 예측에서 에이전트는 미래 보상을 예측하기 위한 Value 네트워크와 behavior을 선택하기 위한 Actor 네트워크를 학습합니다. Actor 네트워크는 Environment Interaction 하는 데 사용됩니다.


월드 모델 학습하기

Dreamer는 PlaNet 월드 모델을 활용합니다. 이 모델은 한 이미지에서 다른 이미지로 직접 예측하는 대신 입력 이미지에서 계산된 일련의 컴팩트 모델 상태를 기반으로 결과를 예측합니다. 객체 유형, 객체 위치 및 객체와 주변 환경의 상호 작용과 같은 미래의 결과를 예측하는 데 유용한 개념을 나타내는 모델 상태를 자동으로 학습합니다. 에이전트의 과거 경험에 대한 데이터 세트에서 일련의 이미지, 액션(action) 및 보상(reward)을 받으면 Dreamer는 다음과 같이 세계 모델을 학습합니다.

[그림 2]

[그림 2] 상세 설명 - Dreamer는 경험으로부터 월드 모델을 배웁니다. 과거 이미지 (o1–o3)와 작업 (a1–a2)을 사용하여 이미지를 재구성하고 (ô1–ô3) 보상(rewards)을 예측하는 컴팩트 모델 상태(녹색 원) 시퀀스를 계산합니다 (r̂1–r̂3).


PlaNet 월드 모델을 사용하는 장점은 이미지 대신 컴팩트 모델 상태를 사용하여 미리 예측하면 계산 효율성이 크게 향상된다는 것입니다. 이를 통해 모델은 단일 GPU에서 수천 개의 시퀀스를 병렬로 예측할 수 있습니다. 이 접근법은 일반화를 촉진하여 정확한 장기 비디오 예측을 가능하게 합니다. 모델 작동 방식에 대한 통찰력을 얻으려면 아래에서 DeepMind Control Suite 작업 및 DeepMind Lab 환경 작업에 대해 컴팩트 모델 상태를 이미지로 다시 디코딩하여 예측된 시퀀스를 시각화할 수 있습니다.

[그림 3]

[그림 3] 상세 설명 - 컴팩트 모델 상태를 사용하여 미리 예측하면 복잡한 환경에서 장기 예측이 가능합니다. 여기에 에이전트가 이전에 발견하지 못한 두 개의 시퀀스가 있습니다. 5개의 입력 이미지가 주어지면 모델은 이미지를 재구성하고 최대 50단계까지 미래 이미지를 예측합니다.


효율적인 행동 학습(Behavior Learning)

이전에 개발된 모델 기반 에이전트는 일반적으로 많은 모델 예측을 계획하거나 시뮬레이터 대신 월드 모델을 사용하여 기존 모델이 없는 기술을 재사용함으로써 작업을 선택합니다. 두 설계 모두 계산이 까다롭고 학습된 월드 모델을 완전히 활용하지 않습니다. 또한 강력한 월드 모델조차도 정확하게 예측할 수 있는 범위가 제한되어있어 이전의 많은 모델 기반 에이전트가 근시안적입니다. Dreamer는 월드 모델의 예측을 역전파를 통해 Value 네트워크와 Actor 네트워크를 학습함으로써 이러한 한계를 극복합니다.


Dreamer는 예측된 상태 시퀀스를 통해 보상의 경사 기울기(gradient)를 역전파하여 model-free 접근법으로는 불가능한 성공적인 행위를 예측하기 위해 Actor 네트워크를 효율적으로 학습합니다. 이것은 Dreamer에게 Action에 대한 작은 변화가 미래에 어떤 Reward에 영향을 미치는지 알려주며, Reward을 가장 많이 늘리는 방향으로 Actor 네트워크를 개선할 수 있게 합니다. 예측 범위를 넘어 Actor을 고려하기 위해 가치 네트워크는 각 모델 상태에 대한 미래 보상의 합계를 추정합니다. Reward과 Value는 역전파되어 Actor 네트워크를 개선하여 개선된 액션을 선택합니다.

[그림 3]

[그림 3] 상세 설명 - Dreamer는 예측된 모델 상태 시퀀스에서 long-sighted behaviors을 학습합니다. 먼저 각 상태의 long-term 가치(v̂2–v̂3)를 학습한 다음 상태 시퀀스를 통해 Actor 네트워크로 역전파함으로써 높은 보상 및 가치로 이어지는 행동(â1–2)을 예측합니다.


Dreamer는 여러 가지 면에서 PlaNet과 다릅니다. 환경의 특정 상황에서 PlaNet은 다양한 동작 시퀀스에 대한 많은 예측 중에서 최상의 동작을 검색합니다. 반면, Dreamer는 계획과 행동을 분리하여이 비싼 검색을 회피합니다. Actor 네트워크가 예상 시퀀스에 대해 훈련되면 추가 검색 없이 환경과 상호 작용하기 위한 작업을 계산합니다. 또한 Dreamer는 가치 기능을 사용하여 계획 범위 이상의 Reward을 고려하고 효율적인 계획을 위해 역전파를 활용합니다.


컨트롤 태스크에 대한 성능

지속적인 작업과 이미지 입력을 통해 20가지 다양한 작업의 표준 벤치마크에서 Dreamer를 평가했습니다. 작업에는 다양한 시뮬레이션 로봇의 운동뿐만 아니라 물체의 균형 및 잡기도 포함됩니다. 과제는 충돌을 예측하기 어렵고, 희박한 보상, 혼란스러운 역학, 작지만 관련성 있는 물체, 높은 자유도 및 3D 관점을 포함하여 RL 에이전트에 다양한 과제를 제기하도록 설계되었습니다.

[그림 4] 

[그림 4] 상세 설명 - Dreamer는 이미지 입력을 통해 20개의 어려운 연속 제어 작업을 해결하는 방법을 배우고 그중 5개가 여기에 표시됩니다. 시각화는 에이전트가 환경에서 받는 것과 동일한 64x64 이미지를 보여줍니다.


우리는 Dreamer의 성능을 이전의 최고의 모델 기반 에이전트, 인기 있는 model-free 에이전트 인 A3C 및 PlaNet의 성능과 비교할 뿐만 아니라 이 벤치마크에서 현재 최고의 model-free 에이전트인 D4PG는 몇 가지 고급 model-free RL을 결합합니다. 모델 기반 에이전트는 시뮬레이션 내 28시간에 해당하는 5백만 프레임 미만에서 효율적으로 학습합니다. model-free 에이전트는 학습 내에서 23 일에 해당하는 학습 속도가 느리고 1억 개의 프레임이 필요합니다.


20개의 작업 벤치마크에서 Dreamer는 786에 비해 평균 점수가 823으로 최고의 model-free 에이전트(D4PG)를 능가하며 20배 적은 environment Interaction을 통해 학습합니다. 또한 거의 모든 작업에서 이전에 최고의 모델 기반 에이전트(PlaNet)의 최종 성능을 능가합니다. Dreamer 교육을 위한 16시간의 계산 시간은 다른 방법에 필요한 24시간보다 짧습니다. 네 가지 에이전트의 최종 성능은 다음과 같습니다.

[그림 5]

[그림 5] 상세 설명 - Dreamer는 최종 성능, 데이터 효율성 및 계산 시간 측면에서 20가지 작업 벤치마크에서 이전의 최고의 모델 프리(D4PG) 및 모델 기반 (PlaNet) 방법을 능가합니다.


지속적인 컨트롤 태스크에 대한 주요 실험 외에도 개별 작업을 통해 작업에 적용하여 Dreamer의 일반성을 보여줍니다. 이를 위해 반응성 및 장거리 행동, 공간 인식 및 시각적으로 더 다양한 장면에 대한 이해가 모두 필요한 Atari 게임 및 DeepMind Lab 레벨을 선택합니다. 결과 동작은 아래에 표시되어 있으며 Dreamer는 이러한 보다 까다로운 작업을 해결하는 방법을 효율적으로 학습합니다.

[그림 6]

[그림 6] 상세 설명 - Dreamer는 Atari 게임 및 DeepMind Lab 레벨에서 성공적인 동작을 학습합니다. 여기에는 여러 가지 개체가 있는 3D 환경을 포함하여 개별 동작과 시각적으로 더 다양한 장면이 있습니다.


결론

우리의 연구는 월드 모델만으로 예측된 시퀀스에서 behaviors 학습이 이전 model-free 접근법의 성능을 능가하는 이미지 입력에서 어려운 시각적 제어 작업을 해결할 수 있음을 보여줍니다. 또한, Dreamer는 예측된 컴팩트 모델 상태 시퀀스를 통해 값의 경사 기울기를 역전파함으로써 behaviors 학습이 성공적이고 강력하며 다양한 연속 및 이산 제어 작업 모음을 해결함을 보여줍니다. 우리는 Dreamer가 더 나은 표현학습, 불확실성 추정을 통한 직접 탐색, 시간적 추상화 및 멀티태스킹 학습을 포함하여 강화 학습의 한계를 한층 더 강화할 수 있는 강력한 토대를 제공한다고 믿습니다.


감사의 말

이 프로젝트는 Timothy Lillicrap, Jimmy Ba 및 Mohammad Norouzi와의 공동 작업입니다. 우리는 또한 우리 팀의 논문 초안에 대해 의견을 말하고 프로젝트의 어느 시점에서든 피드백을 제공한 Brain Team과 그 밖의 모든 사람들에게 감사합니다.


원본 제목: Dreamer 소개:월드 모델을 이용한 확장 가능한 강화 학습(Introducing Dreamer: Scalable Reinforcement Learning Using World Models)
게시자 : Danijar Hafner, Google Research 학생 연구원
원본 링크: https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html
구글 리서치의 Dreamer 오픈소스: https://github.com/google-research/dreamer

Distributed Distributional Deterministic Policy Gradients 논문: https://arxiv.org/pdf/1804.08617.pdf

Asynchronous Methods for Deep Reinforment Learning 논문: https://arxiv.org/pdf/1602.01783.pdf

Learning Latent Dynamics for Planning from Pixels 논문: https://arxiv.org/pdf/1811.04551.pdf

Playing Atari with Deep Reinforcement Learning 논문: https://arxiv.org/pdf/1312.5602v1.pdf

Dream to control: Learning Behaviors by Latent Imagination 논문(ICLR 2020): https://arxiv.org/pdf/1912.01603.pdf


이 블로그는 2020년 3월 18일(수), Google AI Research Blog 기사를 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)
매거진의 이전글 뉴럴 탄젠트가 있는 더빠르고 쉬운 무한 와이드 네트워크
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari