강화학습(reinforcement learning)

나도 어렵지만, 쉽게 설명 해 보련다.

by HJH

Oct 27. 2025 brunch_membership's

V(s) = max[R(s,a) + γ · V(s')]

V(s): "브이 오브 에스" = 상태 s의 가치

max: "맥스" = 최댓값

R(s,a): "알 오브 (에스, 에이)" = 상태 s에서 행동 a를 했을 때 받는 즉시 보상

γ: "감마" (gamma) = 할인율 (0~1 사이 값)

V(s'): "브이 오브 에스 프라임" = 다음 상태의 가치

s': "에스 프라임" = 다음 상태

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership

HJH작가님의 멤버십을 시작해 보세요!

前 SAMSUNG KNOX 메인개발자, 前 ETRI ARM firmware 강사 6年, 現 zeliai.com CTO, (주)예진 기술이사. AI 기술의 브레이크를 만듭니다.

427 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

최신 발행글