brunch

심층 강화 학습을 통해 사람을 닮아 가는 자율 주행

4-13 적절한 보상을 거울 삼아 스스로 모델을 찾아 간다.

by 이정원

실패는 성공의 어머니라는 말이 있다. 우리가 발전하는 것은 어제 성공했기 때문이 아니라, 결과에 상관없이 지난날의 경험으로 학습해서 다음에는 더 나은 결정을 할 수 있기 때문이다. 같은 원리로 난해한 문제를 해결할 수 있는 인공지능 개발에 이용되는 강화 학습도 시행착오를 통해 얻은 반응을 학습한다.


Agent_학습.jpg 에이전트에게 동작을 하게 하고 적절한 보상을 주면서 학습시킵니다.

이세돌과의 바둑에서 이긴 알파고나 인간의 언어를 자연스럽게 구사하는 CHAT GPT 모두 이런 강화 학습을 이용해 학습했다. 고양이와 개 사진을 보여주면서 바로 답을 알려주면서 학습시키는 지도학습과는 달리 강화 학습은 판단을 하는 에이전트가 환경에 대한 반응을 보일 때마다 목적에 부합하는 정도에 따라서 보상을 준다.

머신 러닝의 종류.jpg


마치 바둑에서 어디를 둬야 하는 정답은 없지만 다음 수를 어디에 두면 이길 확률이 얼마나 늘어나는지는 계산해서 피드백 주면서 학습하는 것이다. 이런 과정을 반복하면 인공지능은 학습된 정보를 참조해서 빠르게 최적의 수를 찾아낼 수 있다.


립러닝의 개념.jpg 변수들이 복잡해질수록 심화 학습을 통해 모델을 직접 추출하게 하는 것이 유리하다.


그러나, GPS 신호, 교통 정보, 관성 데이터, 지도 데이터, 화상 정보를 통한 주변 상황의 변화 같이 조건이 복잡해지면, 단순한 강화 학습만으로는 한계가 있을 수밖에 없다. 복잡한 변수들은 기존의 모델로는 연관관계를 정할 수 없기 때문에 아예 참조할 모델을 새롭게 만드는 작업부터 진행한다. Model Free 상태에서 Action과 Reward 그리고 그때의 변수들의 관계를 쌓아 가면서 그 사이에 숨어 있는 Policy도 제안하고 보상이 큰 쪽으로 보정도 동시에 진행한다. 데이터 수가 쌓일수록 모델의 정확도 올라가고 계산은 더 빨라진다.


테슬라신경망학습1.jpg
테슬라신경망학습3.jpg
테슬라신경망학습2.jpg
테슬라신경망학습4.jpg
테슬라 AI 담당자 - 안드레 카파시의 설명 - Auto pilot이 작동하지 않는 순간에도 훈련은 계속된다.

https://youtu.be/p1_yH2jPdIw


자율주행차가 안전하게 주행하기 위해서는 장애물의 위치, 자신의 자세 및 속도, 주변 다른 자동차의 움직임 예측, 보행자의 궤 적 등 주변 환경과 상황을 종합적으로 고려해야 한다. 차선유지, 추월, 양보, 차선 변경, 교차로 회전, 긴급 제동 등에 관련된 우선순위를 결정하는 어려운 작업을 위해 테슬라는 일반 운전자의 데이터까지도 강화 학습을 통해 모델을 발전시키고 있다. 사람 같이 운전하기 위해 사람을 배우는 작업이 자연스럽게 이루어지고 있는 셈이다.

keyword
매거진의 이전글지도상에는 없는 경로를 찾아가는 Q 학습 로직