강화학습의 관점에서
톰크루즈와 에밀리 블런트 주연으로 국내에서도 개봉을 했던 엣지 오브 투모로우는 일본 사쿠라자카 히로시 "All You Need Is Kill"을 원작으로 제작된 영화. 할리우드에서 일본 소설(라이트 노벨)을 최초로 영화화한 작품이기도 하다.
대략의 줄거리는 다음과 같다(https://movie.daum.net/moviedb/main?movieId=70191).
가까운 미래, '미믹'이라 불리는 외계 종족의 침략으로 인류는 멸망 위기를 맞이하게 되고, 인류는 그에 대항해 전 세계 군대가 모두 연합한 연합군인 연합방위군을 창설한다.
방위군의 장교였던 육군 소령 빌 케이지(톰 크루즈)는 자살 작전이나 다름없는 작전에 훈련이나 장비를 제대로 갖추지 못한 상태로 배정되고 전투에 참가 하자마자 죽음을 맞는다.
하지만 불가능한 일이 일어난다.
그가 그 끔찍한 날이 시작된 시간에 다시 깨어나 전투에 참여하게 되고 죽었다가 또 다시 살아나는 일이 반복이 되기 시작한다. 외계인과의 접촉으로 같은 시간대를 반복해서 겪게 되는 타임 루프에 갇히게 된 것이다.
기본적인 이야기의 구조는 1993년에 개봉된 Groundhog day(국내에서는 사랑의 블랙홀이라는 이름으로 개봉)와 반복되는 타임 루프라는 점에서 동일해서, 에지 오브 투모로우가 개봉되고 나서 Goundhog day가 다시 주목을 받기도 했다.
영화가 시작되는 시점의 빌 케이지는 전투가 이루어지는 야전에 대한 경험이 전혀 없는 상태이기 때문에 전장에 투입되자마자 죽음을 맞게 된다.
하지만, 동일한 하루 하루가 반복이 되면서 어느 시점에 추락한 전투기가 덮쳐 오는지, 어디에서 미믹이 출연하는지를 경험을 통해 하나하나 학습하게 되면서 전투의 달인이 되어간다.
전쟁을 끝내기 위해서는 적의 대장인 오메가를 없애야 한다는 것을 알게 되어 오메가가 있을 것으로 예상되는 독일로 갔지만 속았다는 걸 알고 더 이상 인류의 전멸을 막을 수 없는 상황이 되고 만다.
이 때 리타의 도움으로 다른 시도를 통해 오메가의 위치를 알아내고 병력을 모아 오메가를 없애고 전쟁을 끝내게 된다.
영화는 무한 반복의 타임 루프와 그 안에서 벌어지는 외계인과의 수싸움, 그리고 톰크루즈와 에밀리 브런트의 인간적 고뇌와 갈등을 그리고 있지만, 위에서 굵은 글씨로 강조한 부분을 이어보면 공돌이의 관점에서 오늘날 4차 산업혁명을 주도하는 핵심 기술 중 하나인 강화학습의 전형을 보이고 있다.
Agent는 톰크루즈이고, environment는 반복되는 전장이다. 톰크루즈는 본인이 선택할 수 있는 여러가지 행동들의 조합을 action sequence로 이어가며 환경을 통해 학습을 한다. 이때 학습에 반영되는 state는 전장에서 톰 크루즈가 인지할 수 있는 자신을 포함한 모든 주변 정보들이라고할 수 있다. 그리고 학습에 반영되는 reward는 죽지않고 살아있으면 적절한 양의 값으로 유지가 되고 죽게 되면 패널티에 해당하는 음수값을 가지게 되어 학습에 반영이 된다고 볼 수 있다.
또한, 일반적인 전투에서는 exploitation에 따른 선택을 하다가, 막다른 골목에 막혔을 때 다른 시도를 해보는 것은 exploration의 선택이라고 할 수 있겠다.
이 영화를 보았던 2014년에는 수 많은 타임 루프 영화들의 또다른 변주로써 흥미가 있었고, 톰 크루즈의 명불허전 액션 연기와 악마는 프라다를 입는다에서의 차도녀 이미지를 벗어버리고 제 옷을 입은 듯한 연기를 보여준 에밀리 블런트를 보며 만족스러워 했던 기억이 있다.
이제 인공 지능을 연구하는 단계에서 오랜만에 다시 보게 된 에지 오브 투모로우는 강화 학습의 교과서와 같은 내용이라고 할 수 있겠다.