brunch

You can make anything
by writing

C.S.Lewis

by YoungHurck Cha Feb 25. 2019

RL KOREA 딥러닝의 블루오션 영역, 강화학습

RLKOREA,강화학습,딥러닝,네이버D2,강남역,

RL KOREA  강화학습


딥러닝을 스터디하고 있고, 결국 목표는 강화학습이다.

관련 책자를 잔뜩 사놓기도 했다. 그냥 트렌드 헌터에서 머무를지 실제 적용이 쓰임새가 있을지가 관건이다.


페북을 통해서 정보를 수집했고 무작정 신청이다.

80명 제한이었다.


그리고 당일 토요일 오후라 피곤함에 살짝 흔들렸지만 출발을 했다.

안내 메일

1시 가까이 도착. 잠깐 책 보다가 전철을 한참 지나갔다.

몸이 고생!!

행사 순서

서브웨이와 음료를 협찬해 주신 당근 마켓 소개가 있었고

운영진에서 스티커도 준비해 주셨다.


강화학습, 요이땅!!

4개월 동안 부문별로 스터디 한 내용을 공유하고 특강 하나가 포함되어 있다.

강화학습에 관심 있는 분들의 모임이다.
나는 딥러닝 초보라서 솔직히 갭이 있긴 하다.
회사 지인도 꼬셔서 같이 왔다. 회사 지인은 업무력이 이 분야라서 해당 장소에서 선후배를 많이 만나는 것 같다.

① 역강화학습

GAIL

expert 의 의도에 따라 학습

이미테이션 러닝을 왜 하냐?

experts의 데몬스트레이션을 보고 수행

Reinforcement Learing

역강화학습

.어떠한 상태에 대한 어떠한 행동한 나온다.

.리워드가 여러 가지 형태로 나올 수 있다.


APP

IRL -> RL

SVM을 활용

러너가 엑스퍼터에 닿을 때까지

계속 다가갈 때까지


MMP

방문수로 리워드로 찾는다.

visitation


MaxEnt

패스마다 카운트 개념

feature count

엔트로피를 최대화

현재의 정도 정보를 가장 잘 나타내려는 확률분포

최악의 폴리시를 찾을 확률을 제거

Q러닝 활용


GAIL

Imaitation Learning + GAN

Merge RL and IRL

c 코스트 함수 cost를 최소화


VAIL

오토인코더와 유사

엑스퍼터인지 러너인지?

관계없는 단서를 제거

y가 있을 때 x가 다가가고 싶은 거

Discriminator


몬테주마

latent space

모방학습(lmitation Learning)

고수의 경험을 답습

강화학습 관련 정보가 아무것도 없는 것을 유튜브의 고수 영상으로

아이디어1

Obervation으로 비교하자!

아이디어2

Checkpoint로 비교하자!

벡터로 변환하여 벡터 비교

아이디어4

Temporal Difference Classification TDC

아이디어5

소리, 오디오 샘플

 강화학습과 Navi

구글의 기법에 관심이 간다.

VLN

LANI


Unity ML-agents


로봇


역시 경품맨

분위기 봐서 스벅카드 겟



앞으로 수학이 세상을 지배할 듯
수학공식을 컴퓨터에게 각인시키는 일이 한동안 성행
아직도 초보에 이 분야에 관심을 가져야 할지도  살짝 고민도 된다. 하지만 아직 포기하기엔 시작도 안했기에




작가의 이전글 요로결석 병원만 삼세번
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari