brunch

강화학습(reinforcement learning)

나도 어렵지만, 쉽게 설명 해 보련다.

by HJH
V(s) = max[R(s,a) + γ · V(s')]


보상 R(s,a) 더하기 감마 곱하기 다음 상태 s'의 가치


V(s): "브이 오브 에스" = 상태 s의 가치

max: "맥스" = 최댓값

R(s,a): "알 오브 (에스, 에이)" = 상태 s에서 행동 a를 했을 때 받는 즉시 보상

γ: "감마" (gamma) = 할인율 (0~1 사이 값)

V(s'): "브이 오브 에스 프라임" = 다음 상태의 가치

s': "에스 프라임" = 다음 상태


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
HJH작가님의 멤버십을 시작해 보세요!

AISS(AI Security Sector) K-programmer. 아이쓰 프로그래머 분야를 한국에서 만들고 개척한 사람으로 기억되고 싶습니다.

434 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 총 41개의 혜택 콘텐츠
최신 발행글 더보기