모두의 인공지능
지난 글에서는 7차시로 컴퓨터 비전이 무엇인지 살펴봤습니다. 이번 시간에는 컴퓨터 비전의 활용 사례와 한계점, 그리고 우리가 컴퓨터 비전 기술에 대해 가져야 할 경각심 등에 대해서 살펴보려고 합니다.
교과서에서는 안전 사고 예방을 들고 있습니다. 지능형 CCTV를 사용하면 안전사고 모니터링 시스템을 구축할 수 있는데, 단순히 사람인지 사물인지 구분하는 것에 그치지 않고, 사람이 어떤 행동을 하는지 판단할 수 있습니다. 예를 들면 해수욕장에서 인공지능을 활용해 야간 입수 혹은 수영 경계선 침범을 막을 수 있습니다. (자료 영상을 찾아봤는데 없네요..)
불량품의 검출이나 작업의 진행 정도를 지금까지는 작업자가 직접 눈으로 판별하고 분류를 해야했습니다. 그런데 컴퓨터 비전 기술이 활용되면서 이미지 오차율을 줄이고 있습니다. 사람은 보통 5% 내외였던 오차율이 인공지능을 활용하면서 1.3% 이하로 낮출 수 있었다고 해요.
사람은 시간이 지날수록 피곤하기도 하고 그 날의 컨디션에 따라 결과가 달라지기도 합니다. 식사 후에 졸리기도 하고, 퇴근 시간이 다가올 때는 피곤이 쌓여서 집중력이 흐려지기도 하는데 인공지능은 24시간 일정한 성능을 자랑합니다. 오히려 학습량이 늘어날수록 정확도는 더 개선이 됩니다.
지금은 컴퓨터 비전 기술을 활용해 화가들의 화풍의 특징을 학습하고 기존의 사진들을 바꿔주기도 합니다. 진짜와 비교해서 가짜를 계속 대립시켜 변형해가는 GAN(적대적 생성 신경망)이라고 하는 알고리즘을 활용하는데요, 구글에서는 Deep Dream Generator라고 하는 사이트에서 이 서비스를 활용해볼 수 있습니다.
심지어 단순히 그림을 만들어주는게 아니라 실제로 그려주는 것도 가능합니다.
The Next Rembrandt라고 하는 프로젝트는 램브란트의 그림을 학습하고, 그 특징에 따라 3D 프린터를 활용해 페인트 기반의 UV 잉크로 질감까지 완벽하게 구현해냅니다. 그래서 램브란트가 다시 살아나서 초상화를 그려준 것과 같은 작품을 만들어주기도 해요. 사실 여기에는 GAN이라고 하는 딥러닝 기법이 활용되었고, 나중에 II장 후반부에 다시 다룰 예정입니다.
의료 진단은 영상 의학과에서 인공지능을 활용한 사례들이 속속 등장하고 있습니다.
인공지능이 많은 영상 데이터를 학습한 결과 전문의보다 더 정확하게 폐 질환을 진단해낸다고 합니다. 미국 FDA는 2018년에 '당뇨병성 망막병증'이라는 질병을 인공지능으로 진단하는 것을 최초로 승인했습니다. 인공지능은 환자의 망막의 이미지를 통해 12가지에 대한 소견을 2초만에 찾아내는 수준에 이른다고 합니다.
보통 우리가 "네 얼굴에 딱 써있어!" 라고 할 때가 있죠. 그만큼 사람의 표정에는 각자가 가진 감정이 표현되기 마련입니다. 인공지능은 컴퓨터 비전을 활용해서 사람의 감정을 파악하고, 어떤 특성이 있는지도 파악합니다. 실제로 면접 시험에서는 대답도 중요하지만 어떤 모습을 보여주는지도 무척 중요한데요, 인공지능을 활용해 면접을 대비하기도 하고, 실제로 면접관으로 인공지능을 채용하기도 합니다.
사람이 보는 것보다 훨씬 자세하게 특성을 파악해주고, 목소리의 특성까지도 파악합니다. 이 내용들은 음성 인식 단원에서 좀 더 살펴보기로 하겠습니다.
쇼핑, 소매 분야에서도 인공지능이 활용되고 있는데요, 꽤 오래된.. 영상 중의 하나인 알맥스 사의 Eyesee 마네킹에 대해서 한 번 살펴볼께요.
이 마네킹(소비자의 개인 정보와 관련해 논란이 좀 있기도 했지만..지금은 좀 민감해서 사례가 더 발전하지는 않은 것 같습니다)의 경우 옷을 관찰하는 사람의 성별, 연령대, 인종까지도 다 판별할 수 있습니다. 실제로 이 마네킹을 설치한 한 업체는 할인 기간 중에서 첫째 날, 둘째날에는 남성들이 여성보다 더 많이 구매 한다는 것을 파악한 후 제품 진열을 바꾸었습니다. 그리고 특정 출입구로 들어오는 고객 중 3분 의 1 이상이 아시아인이라는 것을 보고 중국어를 구사하는 직원을 그 입구에 세우기도 했죠.
문자 인식 OCR 기능과 딥러닝을 활용한 신경망 번역 기능을 활용하면 한자로 쓰여진 고전의 번역도 척척 해냅니다. 글자를 인식해서 바꾸는 것만으로도 놀랍지만, 맥락을 통해 숨겨진 의미까지 파악해서 번역을 해줍니다. 따라서 컴퓨터 비전의 활용 분야는 정말 어마어마하다고 할 수 있죠!
컴퓨터 비전의 발전이 놀랍지만 아직 극복해야 할 한계들도 여럿 존재합니다.
우선 맥락의 파악이 어렵습니다. 위의 사진을 보면 입에 쓰고 있는 마스크의 의미, 그리고 사진이 담고 있는 의미가 다르죠. 첫번째는 방역을 위한 마스크이지만 두번째는 산소마스크입니다. 위 사진에서 둘 다 마스크로 인식을 할 수 있겠지만 인공지능이 저 사진에서 각 마스크가 내포하는 의미까지 파악할 수 있을까요? 심지어 오른쪽 마스크는 전쟁 중에서 착용하는 방독면입니다. 앞의 마스크는 의료, 건강이지만 뒤의 방독면은 전쟁, 평화 등의 의미를 담고 있습니다. 인공지능은 사진들이 담고 있는 맥락까지 파악하는 것은 아직 어렵습니다.
그리고 거리에 설치된 카메라를 통해 내가 감시를 당하고 있을지도 모릅니다. 지금 우리나라에 설치된 폐쇄회로 카메라(CCTV)는 그냥 녹화용이기 때문에 사건 발생시 참고를 하곤 합니다. 그런데 중국의 인공지능 카메라의 경우 모든 정보들이 기록되고 있기 때문에 마치 감시자가 졸졸 따라다니는 것과 비슷하죠. 심지어 공안들이 쓰고 있는 카메라의 경우 1만명을 동시에 식별할 수 있고, 신분을 밝히지 않아도 내가 누구인지, 내가 무엇을 하는지 계속 모니터링을 하고 있습니다.. 게다가 그걸 활용해서 사람들의 등급을 나눈다니.. 흠....
게다가 컴퓨터 비전은 학습에 많은 비용이 듭니다. 고양이를 구분하기 위해 100만장이 넘는 사진을 학습을 시키기도 합니다. 학습은 공짜로 이루어지는 것이 아니죠. 수많은 컴퓨터를 오래 작동시켜야 하기 때문에 전기를 많이 소모합니다. 실제로 알파고와 이세돌 9단이 대국할 때 에너지를 비교한 기사가 있었는데요, 이세돌 9단의 뇌세포가 사용하는 전기 신호를 모두 모아도 0.02kw 정도이고, 커피 한 잔, 밥 한 공기 정도일까요? 그런데 알파고는 대국 중 컴퓨터 1200대를 연결해야 했고, GPU도 1700여개, 그리고 과학자 100명 넘게 투입이 되었죠. 반면에 이세돌 9단은 혼자입니다. 효율 부분에서 본다면 단연 이세돌 9단의 압승입니다.
게다가 범용성 부분에서도 알파고는 매우 효율이 떨어집니다. 이세돌 9단은 바둑도 두지만 바둑을 가르치기도 하고, 방송에 출현하기도 하며, 집에서는 아빠로서 육아를 하기도 합니다. 어른이 된만큼 세상의 다양한 역할들을 감당하지만 인공지능은 매우 특수한 일만 감당합니다. 실제로 머핀과 치와와를 구분하는 인공지능은 다른 그림의 분류에서는 형편없는 수준을 보였습니다. 다시 엄청난 데이터를 학습해야 제대로 구분할 수 있겠죠.
마지막으로 컴퓨터 비전이 극복해야 할 기술적인 문제들을 한 번 살펴보고 정리를 해봤습니다. 이 영상에서 보면 인공지능을 이끌었던 마빈 민스키가 등장하는데, 컴퓨터 비전이 민스키에 의해 시작되었다는 것을 이번 수업을 통해 저도 처음 배웠습니다. :) 결국 눈에 보이는 것 외의 것들을 볼 수 있는가가 핵심이 될 것 같네요.
컴퓨터 비전의 내용은 여기까지 살펴보구요, 다음 시간에는 '음성 인식'에 대해서 살펴보겠습니다.