머신러닝 중 하나인 강화학습
환경에서 반복적인 시행착오 상호작용을 통해 작업 수행 방법을 학습하는 머신러닝 기법의 한 유형입니다. 로봇이 특정한 행동을할 때, 작업에 대한 보상 메트릭을 최대화하는 결정을 내릴 수 있습니다. 특히 강화학습은 복잡한 문제를 해결하기 위해 특정한 의존성을 가지며, 그 주요 의존성은 다음과 같습니다
1. 액션 의존성 : 각 액션은 다른 보상을 가져옵니다. 밴딧 문제의 경우 손잡이 A를 당길 때와 손잡이 B를 당길 때의 보상은 다릅니다.
2. 시간 의존성 : 보상은 시간이 지연되고 나서야 주어집니다. 에이전트가 미로 안에 있는 경우를 가정해보겠습니다. 우리는 이 에이전트가 미로를 빠져나가는 경로를 학습하기를 바랍니다. 시간 의존성이란 미로의 어떤 분기점에서 왼쪽으로 가는 것이 옳은 선택이라고 하더라도 에이전트는 그것이 옳은 선택이었다는 사실을 미로를 완전히 빠져나가서야 알게 된다는 뜻입니다. 즉 에이전트는 보상에 대해 지연된 시점에 학습하게 되며, 또한 그 보상은 자주 있는 것이 아니라 드문드문 있다는 뜻입니다. 에이전트를 학습시키는 알고리즘에서는 반드시 이를 염두해 둬야만 합니다.
3. 상태 의존성 : 어떤 액션에 대한 보상은 환경의 상태에 좌우됩니다.앞에서 가정한 미로 예를 다시 생각하면, 어떤 분기점에서는 왼쪽으로 가는 것이 이상적이지만 다른 분기점에서는 그렇지 않을 수 있습니다. 이런 경우에 에이전트는 적절한 액션을 취하기 위해 환경의 특성을 이해할 필요가 있게 됩니다.
참고한 글
https://www.aitimes.com/news/articleView.html?idxno=136181
https://taeyuplab.tistory.com/6
https://kr.mathworks.com/discovery/reinforcement-learning.html