5월 11일
1. 오늘은 아침에 강화학습 퀴즈를 보는 날이다. 퀴즈를 잘 보려고 며칠간 공부하고 정리하는데, 이번에는 평균보다 떨어지게 봤다. 간단한 T/F 문제들인데 내가 어디에 홀렸는데 True라고 생각하고 False에다가 체크하고 이걸 검토할 때 못 봤다. 진짜 화가 났다. 내가 그렇게 노력했는데 이런 단순한 실수 때문에 평가절하되는 것이 너무 속상했다. 너무 속상해서 눈물마저 조금 나올지경이었다. 이렇게 매주 퀴즈 보고 울었다 웃었다 하는게 너무 힘들다.
2. 그래도 점심을 먹어야하지 않을까 해서 약간 늦게 점심을 먹으러 갔다. 그래도 먹고 과제하고, 논문도 써서 내 가치를 증명해야지 하고 씩씩하게 밥 먹으러 갔다. 학식에 내가 좋아하는 샐러드 우동과 비슷한 샐러드 파스타가 나왔다. 이건 못 참지라는 마인드로 바로 먹었다. 역시 학식답게 20% 부족한 맛이지만 그래도 맛있게 먹었다.
3. 오늘은 강화학습 과제4번을 하려고 노력했다. pytorch에 detach라는 기능이 있는데, 이는 학습할때 loss를 최소화하는 방향으로 학습이 되고 이때 parameter update를 위해서 gradient를 이용한 back propagation이 일어난다. back propagation이 일어나지 말라고 detach를 하게 된다. 문제는 두 개이상의 loss를 사용할때는 변수에 back propagtaion을 사용하면서 계산상으로 효율적으로 하기 위해 다 지워준다는 것이다. 그래서 policy_loss.backward()를 policy_loss.backward(retain_graph=True)로 바꿔줘야지 작동한다. 이 사실을 알기 위해서 굉장히 오래걸렸지만 알아내서 잘 작동하는 것을 확인했다.
4. 과제 4번은 4가지의 알고리즘을 짜야한다. 근데 중간에 있는 알고리즘의 결과가 교수님께서 첨부한 예상되는 결과와 상당히 다르게 나왔다. 이것에 대해서 내일 시도해보면서 잘 나오기를 바란다.