brunch

You can make anything
by writing

C.S.Lewis

by 이정원 Sep 16. 2023

심층 강화 학습을 통해 사람을 닮아 가는 자율 주행  

4-13 적절한 보상을 거울 삼아 스스로 모델을 찾아 간다. 

실패는 성공의 어머니라는 말이 있다. 우리가 발전하는 것은 어제 성공했기 때문이 아니라, 결과에 상관없이 지난날의 경험으로 학습해서 다음에는 더 나은 결정을 할 수 있기 때문이다. 같은 원리로 난해한 문제를 해결할 수 있는 인공지능 개발에 이용되는 강화 학습도 시행착오를 통해 얻은 반응을 학습한다.  


에이전트에게 동작을 하게 하고 적절한 보상을 주면서 학습시킵니다. 

이세돌과의 바둑에서 이긴 알파고나 인간의 언어를 자연스럽게 구사하는 CHAT GPT 모두 이런 강화 학습을 이용해 학습했다. 고양이와 개 사진을 보여주면서 바로 답을 알려주면서 학습시키는 지도학습과는 달리 강화 학습은 판단을 하는 에이전트가 환경에 대한 반응을 보일 때마다 목적에 부합하는 정도에 따라서 보상을 준다. 


마치 바둑에서 어디를 둬야 하는 정답은 없지만 다음 수를 어디에 두면 이길 확률이 얼마나 늘어나는지는 계산해서 피드백 주면서 학습하는 것이다. 이런 과정을 반복하면 인공지능은 학습된 정보를 참조해서 빠르게 최적의 수를 찾아낼 수 있다.  


변수들이 복잡해질수록 심화 학습을 통해 모델을 직접 추출하게 하는 것이 유리하다.


그러나, GPS 신호, 교통 정보, 관성 데이터, 지도 데이터, 화상 정보를 통한 주변 상황의 변화 같이 조건이 복잡해지면, 단순한 강화 학습만으로는 한계가 있을 수밖에 없다. 복잡한 변수들은 기존의 모델로는 연관관계를 정할 수 없기 때문에 아예 참조할 모델을 새롭게 만드는 작업부터 진행한다. Model Free 상태에서 Action과 Reward 그리고 그때의 변수들의 관계를 쌓아 가면서 그 사이에 숨어 있는 Policy도 제안하고 보상이 큰 쪽으로 보정도 동시에 진행한다. 데이터 수가 쌓일수록 모델의 정확도 올라가고 계산은 더 빨라진다.  


테슬라 AI 담당자 - 안드레 카파시의 설명 - Auto pilot이 작동하지 않는 순간에도 훈련은 계속된다. 

https://youtu.be/p1_yH2jPdIw


자율주행차가 안전하게 주행하기 위해서는 장애물의 위치, 자신의 자세 및 속도, 주변 다른 자동차의 움직임 예측, 보행자의 궤 적 등 주변 환경과 상황을 종합적으로 고려해야 한다. 차선유지, 추월, 양보, 차선 변경, 교차로 회전, 긴급 제동 등에 관련된 우선순위를 결정하는 어려운 작업을 위해 테슬라는 일반 운전자의 데이터까지도 강화 학습을 통해 모델을 발전시키고 있다. 사람 같이 운전하기 위해 사람을 배우는 작업이 자연스럽게 이루어지고 있는 셈이다. 

매거진의 이전글 지도상에는 없는 경로를 찾아가는 Q 학습 로직
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari