brunch

You can make anything
by writing

C.S.Lewis

by 이정원 Sep 08. 2023

지도상에는 없는 경로를 찾아가는 Q 학습 로직

4-12 로봇처럼 시행착오를 거치면서 더 똑똑해진다.

다익스트라법은 교차점들과 그 사이의 정보가 제대로 갖추어져 있으면 가까운 순서대로 확인해서 최단 경로를 찾는 가장 논리적인 방법이다. 그러나 만약 자동차 주변의 정보가 명확하지 않거나 지도에는 표시되지 않는 장애물이 감지된다면 다른 해법이 필요하다. 미로에서 길을 찾는 로봇처럼 주변의 상황을 시행착오 해가면서 학습해서 최단 거리 경로를 찾아가는 Q학습 로직이 대표적인 대안이다.


미로에서 길을 찾는 방법은 하나 - 가보는 수 밖에 없다.


Q 학습에서는 교차점이나 길 뿐만 아닌 2차원 면에 있는 지점들을 모두 이동할 수 있는 경로로 후보로 본다. 대신 차가 가지 못하는 지점에는 페널티로 -1을 배정하고, 일반 경로에는 +1을, 최종 목표지점에는 가장 큰 인센티브인 100을 부여한다. 이런 조건하에서 출발점부터 동서남북 랜덤으로 포인트를 1씩 쓰면서 한 번씩 움직여서 목적지에 도달했을 때까지의 점수를 지나온 경로에 부여하는 식으로 학습을 한다.  


장애물의 수에 따라서 경로가 달라진다.


이런 랜덤 시뮬레이션을 1000번 정도 진행해서 평균을 내면, 자연스럽게 자동차가 갈 수 없는 지점의 점수는 낮아진다. 목적지 가까운 지점일수록 점수가 높고, 짧은 횟수로 목적지에 도달 가능한 경로 상의 지점들이 주변보다 더 높은 기대 점수가 나온다. 이를 따라가면 최적 경로를 쉽게 예측할 수 있다.  


테슬라 오토파일럿 UI - 다음 경로를 위해 차선을 변경하는 디테일은 경로만으로는 알 수 없다.

Q학습은 지도상에 없는 실제로 도로 위를 움직이는 차량들의 이동 특징을 반영할 수 있다는 데 장점이 있다. 길을 뻥뻥 뚫려 있는데 진입로가 막혀서 실제로 지나가는 데는 오래 걸리는 상황을 흔히 볼 수 있는데, TMAP 같은 최근의 내비게이션 서비스들은 광대한 사용자 유저들의 정보를 학습해서 실제 걸리는 시간을 더 정확히 예상한다. 테슬라의 오토 파일럿 기능도 같은 코스를 반복적으로 주행하다 보면 학습을 통해 언제 차선을 바꾸고 어디서 속도를 낮춰 진입하는 것도 경로를 세분화하면서 강화 학습한 결과이다.

매거진의 이전글 최적 경로를 계산해 주는 다익스트라법
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari