스타2 강화학습 튜토리얼 - 3편

Action Space에 대한 이해

by Chris송호연

Apr 17. 2018

안녕하세요- 강화학습 남친 송호연입니다.

3편에서는 Action space에 대해 설명드리기로 했는데요-

Atari 게임에서 유저에게 입력받는 명령들은 아주 단순합니다.

아주 단순한 Pong 같은 게임에서는 위 아래 방향키 두 개만으로 게임을 할 수가 있죠.

Action Space란 우리가 게임을 플레이할 때 게임 환경에 입력하는 입력값이라고 이해하시면 됩니다.

Deepmind가 DQN알고리즘을 발표하면서 활용했던 게임이 atari였던 이유 중 하나는 비교적 게임의 input과 output이 단순한 점이었을 거라고 생각합니다.

하지만 우리가 배워볼 스타크래프트2의 강화학습 환경은 정말 복잡합니다. 스타크래프트2의 강화학습 Action Space가 어떻게 구성되어있는지 확인해보겠습니다.

StarCraft II 의 Action Space는 여러 명령의 조합으로 이루어져있습니다. 스타크래프트2 학습환경은 기존의 아타리 게임과 크게 다른 점이 있는데, 바로 마우스와 카메라입니다.

예를 들어서, 사람은 SCV를 선택할때 SCV근처에 마우스 클릭으로 영역을 만들어서 선택합니다. 스타크래프트2 강화학습에서도 사람과 동일한 과정을 거쳐서 SCV를 선택하게 됩니다.

SCV를 사람이 선택할 때는 이렇게 3단계를 거쳐서 명령을 전달하게 됩니다.

- SCV 좌측 상단에서 마우스 왼쪽 버튼을 누른다.

- 마우스를 누른 상태로 SCV 우측 하단까지 움직인다.

- 마우스 버튼에서 손을 땐다

스타크래프트2에서는 위와 같은 명령을 할 때 이런 명령어들을 조합합니다. 이런 명령어들의 조합은 Base Action의 종류에 따라 결정됩니다.

Base Action: select_rect (3)

Sub Action: (false)

Point1: (10, 12)

Point2: (20, 19)

1) Base Action: select_rect

우선 사각형의 선택영역을 지정해서 유닛을 선택하는 Base Action의 명령번호를 알아야 합니다.

pysc2 안에 해당 명령어를 확인할 수 있는 소스코드가 존재하는데요, 링크를 공유해드리겠습니다.

https://github.com/deepmind/pysc2/blob/master/pysc2/lib/actions.py#L351

select_rect 명령은 3번입니다.

select_rect 명령을 수행하기 위해선 3가지 파라미터가 더 필요합니다. sub_action과 point1, point2입니다. 3가지 파라미터에 대해서 설명드리겠습니다 pysc2/lib/actions.py 파일의 242라인을 보시면, select_rect 명령을 수행하기 위해 필요한 3가지 파라미터를 확인할 수 있습니다.

https://github.com/deepmind/pysc2/blob/master/pysc2/lib/actions.py#L242

우리가 select_rect라는 명령을 수행하기 위해 필요한 파라미터는 3가지입니다. select_add, screen, screen2 입니다.

2) Sub Action: select_add

먼저, select_add를 알아볼게요- False와 True로 이루어져있는데요. 간단합니다. 우리가 SCV를 선택할 때 [Shift] 키를 누른 상태로 유닛을 선택하면 기존 유닛에서 더 추가가 되죠? 바로 그 역할을 합니다. 유닛을 선택하되 기존에 선택된 유닛에 추가로 더 선택을 하고자 하는 것인지 선택합니다.