brunch

You can make anything
by writing

C.S.Lewis

by 코딩하는 수학쌤 Nov 16. 2022

[AI 기초] II-2. 컴퓨터 비전 (1)

모두의 인공지능 기초

도입 : 모라벡의 역설

위의 그림을 한 번 볼까요? 귀여운 고양이도 보이고, 캐러멜 시럽이 맛있게 섞여있는 아이스크림도 보이죠. 여러분은 사진 중에서 고양이 사진이 어떤 것인지 쉽게 분간하실 수 있죠?




딥러닝이 완성되기 이전에 유행했던 Food or Animal 사진의 예시입니다. 치와와 사진과 머핀이 얼핏 보면 매우 비슷해 보이는데, 사람의 경우는 조금만 살펴보면 머핀과 치와와 사진을 쉽게 구분할 수 있습니다. 그러나 2016년 당시의 인공지능은 저런 사진을 구분하는 걸 무척 어려워했었답니다. 

 그러나 시간이 지나면서 인공지능의 성능이 점점 향상되면서 저 정도의 사진들은 쉽게 구분할 수 있는 정도로 수준이 올라왔습니다. 모바일 CPU를 디자인하는 회사로 유명한 Qualcomm 사에서 2018년 인공지능 전문 기업인 Clarifai에 의뢰한 결과 정확도 95.8%로 구분에 성공했다고 합니다. (이 이야기는 뒤에 좀 더 하도록 하겠습니다.) 


사람에게는 쉬운 일이 인공지능에게는 어렵고, 인공지능에게 쉬운 일이 사람에게는 어려운 역설적인 상황을 가리켜 '모라벡의 역설'이라고 합니다. 각자가 장점을 가지는 부분이 다른데요, 요즘은 인공지능의 성능이 향상되어 사람보다 높은 인식률을 보이기도 합니다.



1. 컴퓨터 비전이란?

먼저 컴퓨터 비전이란 무엇일까요? 컴퓨터 비전은 

 - 카메라와 센서로 시각 기능을 구현해서

 - 이미지를 인식하고

 - 분석해

 - 유용한 정보를 생성하는 기술

을 의미합니다. 앞 부분에서 시각 기능을 하는 것에 그치지 않고, 이미지를 분석해서 유용한 정보까지 생성하는 것이 컴퓨터 비전이 가지는 핵심이라고 할 수 있습니다. 영상을 통해서 한 번 살펴볼까요?


https://youtu.be/R-ferWZn56g



컴퓨터 비전 중에서 '이미지 인식'이란 기계가 사진이나 영상으로부터 사물을 인식하거나 장면을 이해하도록 하는 것입니다. 그중에서 '이미지 분류'라고 하는 것은 몇 가지의 카테고리 중에서 어디에 해당하는지 구분하는 기술이에요. 예를 들어 고속도로에서 탐지되는 대상들은 주로 차량밖에 없겠죠? 예를 들면 트럭, 버스, 승용차, 승합차 등으로 나눌 수 있기 때문에 통계를 낼 때 좀 더 편리하게 구현해 볼 수 있습니다.


https://youtu.be/wuhbqcMzOaw

위의 영상은 테슬라가 실제 자율 주행에서 주변 사물을 인식하는 영상입니다. 영상을 보면 주변 사물이 무엇인지 사각형 박스로 계속 인식하고 분류하는 것을 볼 수 있습니다. 사람은 그저 운전석에서 쉬면 되는 거죠. (승차감이 어떤지는 모르겠습니다. 아마 기술이 향상될수록 승차감도 더 좋아지겠죠? 이런 데는 물리학이 또 중요한 역할을 합니다.)


위에서 살펴본 영상에서처럼 이미지에서 '어느 영역까지가 어느 대상인가?'를 분류하는 기술을 '객체 감지(Object Detection)'이라고 합니다. 이미지 인식은 전체 이미지가 어느 대상인지 분류하는 반면 객체 탐지는 영상 혹은 이미지에서 특정 부분이 어떤 대상인지를 인식하죠. 자율주행에서 매우 중요한 역할을 하고 있습니다.



컴퓨터 비전은 결국 사람이 시각을 통해 '무엇인가를 인식'하는 역할을 인공지능을 통해 구현한 것이라고 할 수 있습니다. 인간의 시각이 할 수 있는 일들을 보조하거나 대처하는 것이 목표인데, 불량품의 분류나 사람의 인식, 사람을 인식하고 배경을 바꾸는 등의 기능에 활용됩니다. 온라인 화상 회의(줌이나 구글 미트 등)에서 가상 배경을 활용하거나 뒤 배경을 흐리게 만드는 기능들이 컴퓨터 비전의 활용 예시라고 할 수 있습니다.




2. 컴퓨터 비전의 원리

컴퓨터 비전은 어떻게 사물을 인식할까요? 여기에는 몇 가지 단계가 진행됩니다. 


먼저 이미지 수집을 하고 탐지를 합니다. 이미지 정보에는 각 픽셀(그림을 나타내는 아주 작은 점의 단위)마다 위치와 색상 2가지 정보가 있는데, 각 위치마다 색깔을 RGB(빛의 3원색, 빨강, 초록, 파랑) 3가지 색상의 정보를 가집니다. 이 정보들을 행렬들의 모음인 텐서(tensor)로 표현을 하죠.


 이 텐서들을 딥러닝(중에서 합성곱 딥러닝, CNN)을 통해 특징들을 추출합니다. 전체 정보를 하나하나 보는 것이 아니라 윤곽선, 특징적인 부분을 포착해 눈은 어떤지, 코는 어떤지 등을 부분적으로 파악합니다. 수집된 정보들이 기존의 학습된 내용을 통해 '고양이'라는 것을 파악하게 됩니다.


같은 이미지라고 해도 어떤 부분에 대해 파악할 것인지에 따라 딥러닝이 추출하는 특성이 달라지기도 합니다. 위의 사진은 원본 이미지가 있고 이 사진에 대해 '여성', '점프', '축하' 등의 주제로 특성을 봤을 때 어느 부분을 주목하는지 보여줍니다. 이러한 사진을 히트맵(Heat Map)이라고 하는데, 마치 열 감지 카메라와 같죠? 그 원리를 적용한 것이라고 할 수 있습니다.



컴퓨터 비전의 활용 분야는 점차 확대되어가고 있습니다. 대표적으로 영상 의학 분야에서 인공지능을 활용한 사례를 볼 수 있습니다. 교과서가 개발되던 때와 지금은 코로나19의 양상이 달라지긴 했습니다만, 2020년 초반에는 주로 폐 질환 쪽으로 (그래서 소위 우한 폐렴으로 불리기도 했었죠. 이 용어는 쓰시면 안 됩니다) 발견이 되었기 때문에 X-ray를 통해 판별하는 기술이 주목을 받았습니다. 위의 사진이 그 사례이며, 앞에서 언급한 히트맵 기술이 적용된 것을 볼 수 있습니다.

 



컴퓨터 비전은 '이미지 인식', '이미지 분류', '객체 탐지' 등 많은 기능을 내포하고 있는 기술입니다. 예전에는 카메라로 녹화를 해서 사람이 직접 분석을 해야 했지만 이제는 컴퓨터가 실시간으로 파악하고 자동화된 처리를 할 수 있습니다. 사람이 '보고', '판단하는' 2가지를 이제 인공지능이 대신할 수 있는 시대가 된 것이죠.


본격적인 컴퓨터 비전의 활용 사례는 다음 시간에 좀 더 살펴보도록 하겠습니다! 마지막으로 쓰레기를 불법으로 투기하는 것을 인식하는 인공지능의 영상을 보며 7차시를 마무리하도록 하겠습니다. 감사합니다~


https://youtu.be/dHoXwENKktM


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari