Introduction to Reinforcement Learning
강화 학습에 대해 공부하는 내용을 포스팅하려고 합니다.
강화 학습을 처음 공부하기 시작하였고, 개인의 학습을 위해 기록을 하는 것으로,
조언이나 가르침은 언제든 환영입니다 ^^.
포스팅에 인용되는 사진이나 글, 수식 등은 Richard S. Sutton and Andrew G. Barto의 "Reinforcement Learning"과 Maxim Lapan의 "Deep Reinforcement Learning Hands-On"에서 참고하였습니다.
강화 학습은 컴퓨터공학뿐 아니라 신경과학, 심리학, 경제학 등 다양한 분야에서 활용이 되고 있다.
강화 학습은 머신러닝 기법에서 지도 학습(Supervised Learning) 또는 비지도 학습(Unsupervised Learning)과는 구분되는 학습방법으로 Action에 대한 Reward를 근거로 미래의 가치(Value)를 최대화하는 방향으로 의사결정을 스스로 학습하는 것을 말한다.
강화 학습의 기본구조는 위 Figure 2와 같다. 의사결정을 하는 Agent가 있고, Agent의 행동에 따라 반응하는 Environment가 있어 Agent가 어떤 state(S)에서 특정 action(A)을 하게 되면 이에 대해 Environment는 Agent에 새로운 상태(state, S')와 보상(reward, R)을 주게 된다. 이때 '보상'은 항상 양의 값을 가지는 것이 아니며, 위와 같은 interaction으로 Agent를 강화시키는 것을 강화 학습(Reinforcement Learning)이라 한다.
다음 포스팅에서는 MDP(Markov Decision Process)에 대해서 다루도록 하겠습니다.
구독과 라이킷, 댓글과 공유는 작가에게 큰 힘이 됩니다.