brunch

You can make anything
by writing

C.S.Lewis

by Tech and Biz Jul 23. 2019

강화 학습(RL)_Intro

Introduction to Reinforcement Learning

강화 학습에 대해 공부하는 내용을 포스팅하려고 합니다.

강화 학습을 처음 공부하기 시작하였고, 개인의 학습을 위해 기록을 하는 것으로,
조언이나 가르침은 언제든 환영입니다 ^^.


포스팅에 인용되는 사진이나 글, 수식 등은 Richard S. Sutton and Andrew G. Barto의 "Reinforcement Learning"과 Maxim Lapan의 "Deep Reinforcement Learning Hands-On"에서 참고하였습니다. 


Figure 1. Many Faces of Reinforcement Learning


강화 학습은 컴퓨터공학뿐 아니라 신경과학, 심리학, 경제학 등 다양한 분야에서 활용이 되고 있다.

강화 학습은 머신러닝 기법에서 지도 학습(Supervised Learning) 또는 비지도 학습(Unsupervised Learning)과는 구분되는 학습방법으로 Action에 대한 Reward를 근거로 미래의 가치(Value)를 최대화하는 방향으로 의사결정을 스스로 학습하는 것을 말한다.


Figure 2. The Agent-Environment Interaction


강화 학습의 기본구조는 위 Figure 2와 같다. 의사결정을 하는 Agent가 있고, Agent의 행동에 따라 반응하는 Environment가 있어 Agent가 어떤 state(S)에서 특정 action(A)을 하게 되면 이에 대해 Environment는 Agent에 새로운 상태(state, S')와 보상(reward, R)을 주게 된다. 이때 '보상'은 항상 양의 값을 가지는 것이 아니며, 위와 같은 interaction으로 Agent를 강화시키는 것을 강화 학습(Reinforcement Learning)이라 한다.


다음 포스팅에서는 MDP(Markov Decision Process)에 대해서 다루도록 하겠습니다.





구독 라이킷댓글과 공유는 작가에게 큰 힘이 됩니다. 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari