RLKOREA,강화학습,딥러닝,네이버D2,강남역,
RL KOREA 강화학습
딥러닝을 스터디하고 있고, 결국 목표는 강화학습이다.
관련 책자를 잔뜩 사놓기도 했다. 그냥 트렌드 헌터에서 머무를지 실제 적용이 쓰임새가 있을지가 관건이다.
페북을 통해서 정보를 수집했고 무작정 신청이다.
80명 제한이었다.
그리고 당일 토요일 오후라 피곤함에 살짝 흔들렸지만 출발을 했다.
안내 메일
1시 가까이 도착. 잠깐 책 보다가 전철을 한참 지나갔다.
몸이 고생!!
행사 순서
서브웨이와 음료를 협찬해 주신 당근 마켓 소개가 있었고
운영진에서 스티커도 준비해 주셨다.
강화학습, 요이땅!!
4개월 동안 부문별로 스터디 한 내용을 공유하고 특강 하나가 포함되어 있다.
강화학습에 관심 있는 분들의 모임이다.
나는 딥러닝 초보라서 솔직히 갭이 있긴 하다.
회사 지인도 꼬셔서 같이 왔다. 회사 지인은 업무력이 이 분야라서 해당 장소에서 선후배를 많이 만나는 것 같다.
① 역강화학습
GAIL
expert 의 의도에 따라 학습
이미테이션 러닝을 왜 하냐?
experts의 데몬스트레이션을 보고 수행
Reinforcement Learing
역강화학습
.어떠한 상태에 대한 어떠한 행동한 나온다.
.리워드가 여러 가지 형태로 나올 수 있다.
APP
IRL -> RL
SVM을 활용
러너가 엑스퍼터에 닿을 때까지
계속 다가갈 때까지
MMP
방문수로 리워드로 찾는다.
visitation
MaxEnt
패스마다 카운트 개념
feature count
엔트로피를 최대화
현재의 정도 정보를 가장 잘 나타내려는 확률분포
최악의 폴리시를 찾을 확률을 제거
Q러닝 활용
GAIL
Imaitation Learning + GAN
Merge RL and IRL
c 코스트 함수 cost를 최소화
VAIL
오토인코더와 유사
엑스퍼터인지 러너인지?
관계없는 단서를 제거
y가 있을 때 x가 다가가고 싶은 거
Discriminator
②몬테주마
latent space
모방학습(lmitation Learning)
고수의 경험을 답습
강화학습 관련 정보가 아무것도 없는 것을 유튜브의 고수 영상으로
아이디어1
Obervation으로 비교하자!
아이디어2
Checkpoint로 비교하자!
벡터로 변환하여 벡터 비교
아이디어4
Temporal Difference Classification TDC
아이디어5
소리, 오디오 샘플
③ 강화학습과 Navi
구글의 기법에 관심이 간다.
VLN
LANI
④ Unity ML-agents
⑤ 로봇
역시 경품맨
분위기 봐서 스벅카드 겟
앞으로 수학이 세상을 지배할 듯
수학공식을 컴퓨터에게 각인시키는 일이 한동안 성행
아직도 초보에 이 분야에 관심을 가져야 할지도 살짝 고민도 된다. 하지만 아직 포기하기엔 시작도 안했기에