3-08 픽셀 단위로 비교해서 매칭을 찾아내는 비전 인식 기술
표지판을 포함한 여러 가지 표식들과 글 등도 카메라를 통한 영상을 통해 인식할 수 있다. 인간도 학습을 통해 어떤 이미지가 어떤 의미인지를 연결시키듯이, 자율주행 자동차도 영상 속의 이미지를 기존에 학습한 내용과 비교해서 유사성을 계산하고 일치 여부를 판단하는 일련의 작업을 거쳐야 하는데 이를 비전 인식을 위한 템플릿 매칭이라고 부른다.
사물 인식에서 템플릿은 찾고자 하는 대상이 되는 작은 크기의 영상을 의미한다. 템플릿 이미지와 같은 사이즈의 윈도를 가지고 목표 영상을 모든 subimage들과 비교하면서 유사도가 가장 높은 부분을 찾아간다.
두 이미지가 같은지를 비교하려면 이미지를 이루고 있는 픽셀 하나하나의 명도가 기준이 된다. 기준점을 정하고 동일 좌표상에 픽셀 값의 차가 작을수록 유사하다고 판단할 수 있다. 각 픽셀 간 차이의 절댓값을 합쳐서 비교하는 SAD (Sum of Absolute Difference)나 차이의 제곱을 합쳐서 비교하는 SSD (Sum of Squared Difference) 방식이 일반적이다.
그러나, 이런 방식은 구현이 간단한 반면, 영상의 밝기 차와 같은 상황에 대한 보정이 포함되어 있지 않아서 신뢰도가 떨어진다. 이를 극복해 주기 위해서 모니터링하는 범위 내의 픽셀들의 평균 밝기와 표준 편차를 구한 후에 각 픽셀의 RGB 값들을 Vector처럼 계산해서 합산하는 방식 NCC (Normalized Cross Correlation)도 널리 이용되고 있다.
인식을 위한 Reference 데이터는 실제 카메라를 통해 취득한 영상을 기반으로 학습을 통해 데이터베이스화 한다. 테슬라의 Autopilot 기능이 처음 가는 길보다 자주 다니는 길에서 더 좋은 성능을 보이는 것도 학습을 통해 업데이트되는 템플릿 덕분에 사물 인식 및 판단에 걸리는 시간이 줄어들기 때문이다.