나도 어렵지만, 쉽게 설명 해 보련다.
V(s) = max[R(s,a) + γ · V(s')]
V(s): "브이 오브 에스" = 상태 s의 가치
max: "맥스" = 최댓값
R(s,a): "알 오브 (에스, 에이)" = 상태 s에서 행동 a를 했을 때 받는 즉시 보상
γ: "감마" (gamma) = 할인율 (0~1 사이 값)
V(s'): "브이 오브 에스 프라임" = 다음 상태의 가치
s': "에스 프라임" = 다음 상태
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠