공식 없이 훑어 보는 최신 강화학습 트렌드
일하다가 덕질하려고 잠시 강화학습 글 번역했습니다.
https://towardsdatascience.com/getting-just-the-gist-of-deep-rl-algorithms-dbffbfdf0dec
RL (Reinforcement Learning) 연구원으로서 알고리즘 사이의 미묘한 차이점을 자주 상기시켜 이해해야합니다. 이 포스팅에서 분야별 알고리즘 각각에 대해 한두 문장을 작성하려고합니다. 우선, 컴퓨터 과학의 역사로부터 이야기를 시작해보겠습니다.
강화 학습은 최적 제어(Optimal Control) 역사에 뿌리를두고 있습니다. 이 이야기는 1950 년대에 정확한 다이나믹 프로그래밍으로 시작되었습니다.이 말은 광범위하게 말하면 제한된 문제를 작고 해결할 수있는 하위 문제로 리차드 벨먼 (Richard Bellman)이 창안한 구조화된 접근법입니다. Claude Shannon과 Richard Bellman이 1950 년대와 1960 년대에 많은 컴퓨터 과학에 혁명을 일으켰다는 역사는 알아두시면 좋을 것입니다.
1980 년대에 RL과 제어 사이의 연결에 관한 초기 연구가 시작되었으며, 첫 번째 주목할만한 결과는 1992 년의 시차 모델을 기반으로 한 Tesauro의 백 감몬 프로그램이었습니다. 1990 년대에는 알고리즘에 대한 더 많은 분석이 등장하여 이제 우리는 이 알고리즘을 강화학습이라고 부릅니다. 중요한 논문은 현재 Vanilla Policy Gradient를 소개 한 Ronald J. Williams의 “Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning”입니다. 제목에는 RL을 설명하기 위해 'Connectionist'라는 용어가 포함되어 있습니다. 이는 인간 의식 설계에 따라 모델에 알고리즘을 지정하는 방법이었습니다. 이것을 신경망이라고하지만, 불과 20 년 전만해도 작은 연구 분야였습니다.
2000 년 중반이 되어서야 빅 데이터의 출현과 RL이 신경계 네트워크 기반으로 바뀌는 계산 혁명으로 많은 경사 기반 수렴 알고리즘이있었습니다. 현대 RL은 종종 Model-Free와 Model-Based RL의 두 가지로 구분됩니다.
Model free RL은 Actor에 대한 정책을 직접 생성합니다. 저는 모든 환경 지식이이 정책에 포함되어있는 방법에 대한 종단 간 학습으로 생각하고 싶습니다.
정책 그래디언트 알고리즘은 에이전트의 정책을 수정하여 보상을 높이는 작업을 추적합니다. 이를 통해 이러한 알고리즘을 정책에 맞출 수 있으므로 알고리즘 내에서 취한 조치에서만 배울 수 있습니다.
Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning (REINFORCE) — 1992: 이 논문은 정책 그라디언트 아이디어를 시작하여 높은 보상을 제공하는 행동의 가능성을 체계적으로 향상시키는 핵심 아이디어를 제안합니다.
Value-based Algorithm은 주어진 상태의 인식 된 값을 기반으로 에이전트의 정책을 수정합니다. 이는 에이전트가 정책에서 보상 기능을 읽어서 해당 상태의 내부 가치 구조를 업데이트 할 수 있기 때문에 이러한 알고리즘을 정책 외부로 허용합니다.
Q-learning은 최신 RL의 고전적인 값 기반 방법으로, 에이전트는 각 작업, 상태 쌍에 대해 인식 된 값을 저장 한 다음 정책 작업에 알립니다.
Deep Q-Learning은 단순히 신경망을 적용하여 각 동작 및 상태에 대한 Q 함수를 근사화하여 방대한 양의 계산 리소스를 절약하고 연속적인 시간 동작 공간으로 확장 할 수 있습니다.
행위자 비판 알고리즘은 가치 (Critic)와 행동(Actor)에 대해 별도의 네트워크 근사값을 가짐으로써 정책 기반 및 가치 기반 방법을 함께 취합니다. 이 두 네트워크는 서로 협력하여 서로를 정규화하고보다 안정적인 결과를 얻습니다.
이 논문은 제어 정책을 생성하기 위해 서로 분리 된 두 개의 서로 다른 모델이 있다는 아이디어를 소개했습니다.
10 년 후, 우리는 RL 알고리즘이 폭발적으로 폭발하는 것을 발견했습니다. 당신이 읽은 모든 언론에서 핵심은 신경망 근사법을 사용하는 방법을 말합니다.
정책 그라디언트 알고리즘은 정기적으로 노이즈 그라디언트를 겪습니다. 최근에 다른 게시물에서 제안 된 그라디언트 계산의 한 가지 변경에 대해 이야기했으며 당시 가장 최신의 'State of the Art'알고리즘이 TRPO 및 PPO를 포함하여이 문제를 해결하려고했습니다.
TRPO 제약 조건의 시각화. 녹색 L (θ)은 로그 확률 또는 손실입니다. 파란색은 KL 제약 조건으로 구성된 하한입니다. 매개 변수는 성능에 대한 하한을 최대화하면서 eta를 따라 단계적으로 진행됩니다. 그림의 출처. TRPO
TRPO (Trust Region Policy Optimization) — 2015 : Actor Critic 접근 방식을 기반으로 TRPO의 작성자는 각 교육 반복마다 정책 변경을 정규화하려고했으며 KL 분기 (***)에 대한 엄격한 제한을 도입했습니다. 새로운 정책 배포의 정보 변경. 페널티 대신 제약을 사용하면 실제로 더 큰 훈련 단계와 더 빠른 수렴이 가능합니다.
PPO (Proximal Policy Optimization) — 2017 : PPO는 KL Divergence를 사용하는 TRPO와 유사한 아이디어를 기반으로하며 대리 손실 함수를 사용하여 TRPO (which involves conjugate gradients to estimate the Fisher Information matrix ) 구현의 어려움을 해결합니다. KL 분기를 설명하십시오. PPO는 클리핑을 사용하여 이러한 대리 손실을 만들고 수렴을 지원합니다.
DDPG (Deep Deterministic Policy Gradient) — 2016 : DDPG는 Q 학습의 개선 사항과 정책 그라데이션 업데이트 규칙을 결합하여 Q 학습을 여러 지속적인 제어 환경에 적용 할 수있게했습니다.
Deep RL (Rainbow) — 2017의 개선 사항 결합 : Rainbow는 DQN (Deep Q Learning) 개선에 대한 많은 혁신을 결합하고 비교합니다. 여기에 참조되는 많은 논문이 있으므로 DQN의 진행에 대해 배울 수있는 좋은 장소가 될 수 있습니다.
Prioritization DQN: 더 많은 불확실성, 즉 더 많은 것을 배우는 Q 학습에서 전환을 재생합니다.
Dueling DQN : 작업을 일반화하는 데 도움이되도록 State Value와 Advantage Function을 별도로 추정합니다.
A3C : 네트워크의 초기 단계에 새로운 지식을 전파하기 위해 다단계 부트 스트랩에서 배웁니다.
Distributional DQN : 수단이 아닌 보상 분배를 학습합니다.
Noisy DQN : 탐색을 위해 확률 적 계층을 사용하여 작업 선택을 덜 공격적으로 만듭니다.
다음 2 개는 Actor Critic 알고리즘과 유사한 변경 사항을 통합합니다. SAC는 거의 동시에 출시되었으므로 TD3의 후속 제품은 아니지만 SAC는 TD3에도 사용 된 몇 가지 트릭을 사용합니다.
TD3 (Twin Delayed Deep Deterministic Policy Gradient) — 2018 : TD3은 3 가지 주요 변경 사항으로 DDPG를 기반으로합니다. 1) "Twin": 두 개의 Q 함수를 동시에 학습하여 분산을 줄이기 위해 Bellman 추정값을 낮추고 2) "Delayed" : Q 함수보다 정책을 덜 자주 업데이트합니다. 3) 공격을 줄이면 대상 조치에 노이즈가 추가됩니다.
SAC (Soft Actor Critic) — 2018 : 로봇 실험에서 모델이없는 RL을 사용하기 위해 저자는 샘플 효율성, 광범위한 데이터 수집 및 탐사 안전성을 개선하고자했습니다. 엔트로피 기반 RL을 사용하여 연속 제어를위한 DDPG 스타일 Q 함수 근사와 함께 탐색을 제어합니다. 참고 : SAC는 TD3와 같은 클리핑도 구현했으며, 확률 적 정책을 사용하면 스무딩과 유사한 동작 선택을 규칙 화하는 것이 좋습니다.
많은 사람들이 샘플 복잡성이 떨어지고 결과가 높아짐에 따라 모델이없는 RL의 응용 프로그램에 매우 흥분합니다. 최근 연구에 따르면 이러한 방법의 일부가 실제 실험에 점점 더 많이 사용되어 광범위한 로봇의 전망이 한 걸음 더 가까워지고 있습니다.
MBRL (Model based RL)은 환경에 대한 지식을 구축하려고 노력하고, 해당 지식을 활용하여 정보에 입각 한 조치를 취합니다. 이러한 방법의 목표는 종종 end-to-end 학습에 더 가까운 모델이없는 변형의 샘플 복잡성을 줄이는 것입니다.
PILCO (Probabilistic Inference for Learning Control) — 2011 :이 논문은 모델 기반 RL 중 첫 번째이며, 가우시안 프로세스 (GP) 역학 모델 (기본 제공)을 기반으로 정책 검색 방법 (필수적으로 정책 반복)을 제안했습니다. 불확실성 추정). GP를 이용한 학습 응용 프로그램은 많지만 현재까지 핵심 알고리즘은 많지 않습니다.
GPs 시각화를 통한 모델링 상태 전이. 왼쪽 : 관측 된 데이터, 중간 : 다중 그럴듯한 함수 적합, 오른쪽 : GP의 불확실성 추정. 출처.
PETS (Trjectory Sampling)를 사용한 확률 적 앙상블 — 2018 : PETS는 세 부분을 하나의 기능 알고리즘으로 결합합니다. 1) 여러 개의 무작위로 초기화 된 신경망 (모델 앙상블), 2) 입자 기반 전파 알고리즘 및 3) 간단한 모델 예측 컨트롤러. 이 세 부분은 잠재적으로 일반화 가능한 방식으로 역학 모델에 대한 딥 러닝을 활용합니다.
PETS 알고리즘의 시스템 흐름. 여러 신경망 부트 스트랩을 데이터에 맞추고, 다른 모델을 통해 다른 궤적을 전파하고, MPC (Model Predictive Control)를 통해 계획합니다.
MB-MPO (Model-Based Meta-Policy-Optimization) — 2018 :이 논문은 메타 학습을 사용하여 앙상블의 어떤 역학 모델이 정책을 가장 최적화하고 모델 편향을 완화 할 것인지 선택합니다. 이 메타 최적화를 통해 MBRL은 실질적으로 더 낮은 샘플에서 점근없는 모델없는 성능에 더 가까이 다가 갈 수 있습니다.
ME-TRPO (Model-Ensemble Trust Region Policy Optimization) — 2018 : ME-TRPO는 환경의 기본 진실로 간주되는 모델 앙상블에 TRPO를 적용한 것입니다. 모델 프리 버전에 미묘한 추가는 앙상블에서 사용자 정의 모델의 비율이 더 이상 정책이 반복 될 때 개선을 볼 수없는 경우에만 Policy 학습을 중지합니다.
SimPLe (2019) : Atari 용 모델 기반 강화 학습 — SimPLe은 모델 기반 RL 영역의 많은 트릭을 픽셀의 변형 자동 인코더 모델링 역학과 결합합니다. 이것은 Atari 게임에서 MBRL의 최신 기술을 보여줍니다 (개인적으로 나는 이것이 매우 멋진 조각이라고 생각하며 사람들이 곧 그것을 기대할 것입니다).
최근에는 Model-based RL의 과대 광고(hype)가 증가하고 있습니다. 반대 접근법인 Model-free 보다 점근 적 성능이 부족했기 때문에 종종 약한 모습을 보였습니다. 하지만, Model-based RL은 쿼드 로터와 워킹 로봇을 포함한 많은 실험, 흥미 진진한 응용 프로그램을 가능하게했기 때문에 특히 관심이 있습니다.
읽어 주셔서 감사합니다! 적합하다고 생각 될 때마다이 페이지를 업데이트 할 수 있습니다. 미리 알림 리소스를 제공하기 위해 노력하겠습니다.
(***) KL Divergence (Kullback-Leibler Divergence)는 좀처럼 드물게 Kullback-Leibler Divergence라고하며 두 확률 분포의 차이를 측정합니다. 두 분포 p (원본)와 q (신규) H (p, q)의 교차 엔트로피와 원래 분포 p, H (p)의 엔트로피의 차이로 생각하는 것이 가장 좋습니다. KL (P | Q)로 표시되며 Information gain의 척도입니다.
2017 년 현재 심층 RL을 검토 한 훌륭한 논문 :
https://arxiv.org/pdf/1708.05866.pdf
https://openai.com/blog/spinning-up-in-deep-rl/