당신의 눈이 되어주는 AI

연세대 경영혁신학회 28기 이동현

Nov 11. 2020

앞이 보이지 않는다면

세계보건기구 WHO에 의하면 전 세계적으로 2억 5300만 명의 사람들이 시각 장애를 가지고 있다. 이들은 대부분 가족이나 보호자의 도움을 받아 생활한다. 혼자 생활할 경우 주변의 사물과 위험을 알려줄 '흰지팡이'를 이용하여 이동한다. 일상생활에 필요한 물건을 찾거나 볼 일을 보러 외출을 하는 일 모두 시각장애인에게는 엄청난 시간과 노력을 필요로 하고, 실제로 매우 위험하다. 물을 마시기 위해 컵을 찾다가 컵의 정확한 위치를 몰라 깨뜨려 부상을 입는 사례, 복지관에 방문하기 위해 길을 나섰다가 도로 공사로 인해 길을 찾지 못 하는 사례 등 시각장애인들이 주변 환경을 인지하지 못 해서 일어나는 사고가 잦고 불편이 크다. 문화생활에서도 장애인이 비장애인에 비해 박탈당하고 있는 부분이 많다. 비장애인이라면 전혀 문제가 없는 책 읽기, 미술 작품 감상하기와 같은 음성이 제공되지 않는 컨텐츠의 경우 시각장애인은 즐길 수 있는 방법이 없었다. 이를 보완하기 위해 점자블록, 점자책, 안내견, 음성 보조 기능 등 시각 보조 수단을 마련하고 사회 인프라를 확충하려는 사회적 노력이 계속 되어왔다. 그러나 시각장애인이 주변을 보지 못 해서 생기는 일상적인 불편과 위험을 근본적으로 해결하기에는 역부족이었다.

시각장애인들은 주변 환경과 사물을 인지하지 못 한다. (출처: https://100up.kakaoimpact.org/problems/1/view)

구글 룩아웃: AI가 보여주는 세상

2010년 대에 들어 스마트폰이 보급되고 스마트폰에 내장되어 있는 카메라 또한 기술이 발전했다. 카메라의 인식 기술이 발전하면서 해상도, 그래픽과 같은 인식 단계 뿐만 아니라, 사진을 구성하는 컴포넌트가 무엇인지를 컴퓨터가 해석하는 해석 기술 또한 함께 발전했다. 특히 전세계 유저들이 찍어 전송하는 수많은 사진들을 통해 사진의 구성요소를 스스로 해석하고 학습하는 인공지능은 카메라를 통해 주변 환경과 사물, 공간을 인식하고 분석하여 정보를 시각장애인에게 음성으로 알려줄 수 있는 가능성을 열어주었다.

2018년 구글은 I/O 개발자 컨퍼런스에서 이용자의 주변 환경과 사물, 문자를 소리로 알려주는 "룩아웃" (Lookout) 개발을 진행 중이라고 발표했다. 공개한 영상에는 한 시각장애인 예술가가 룩아웃의 도움으로 공간예술을 만들어 나가는 과정을 보여준다. 이는 시각적인 영역이라서 시각장애인은 공간 예술을 만들지 못 할 것이라는 선입견을 무너뜨림과 동시에, 이 놀라운 결과는 룩아웃의 도움으로 가능했다라는 메세지를 담고 있다. 룩아웃은 이 예술가에게 필요한 가위 등의 도구를 12시 방향에 있다고 알려주며, 항상 어디에다 물건을 두었는지 잊어버리면 비장애인에 비해 이를 찾기가 너무 어려웠던 시각장애인들의 구체적인 문제 상황에 대한 해결책을 제시한다. 또한 대자연 속에서 앞에 라벤더가 있다는 점을 음성으로 알려준다. 이를 통해 룩아웃이 인식할 수 있는 사물, 공간이 다양하며, 이용자가 위치한 공간의 맥락 (context)에 맞는 정보를 AI가 제공해줌을 알 수 있다.

구글 룩아웃 소개 동영상 캡쳐 (출처: Announcing the Lookout app)

룩아웃을 사용하기 위해서는 우선 옷의 앞주머니에 스마트폰을 넣거나 목걸이에 걸어 스마트폰 카메라 렌즈가 마치 눈으로 앞을 보듯이 전방을 주시하게 한다. 그리고 앱을 열어 룩아웃을 실행하면 4가지 모드가 뜬다. "업무 및 여가용," "가정용," "스캔," 그리고 개발 중인 기능을 체험할 수 있는 "실험" 모드가 있다. 이는 사물과 공간을 카메라가 인식할 때 사람들의 생활 공간과 맥락을 분류하여 AI가 해석할 때 좀 더 정확한 정보를 제공할 수 있도록 도와준다. 예를 들어, "가정용"을 선택하면 집 안에서 일어날 수 있는 상황을 고려하여 TV, 세탁기, 책상 등의 위치를 음성으로 알려준다. "업무 및 여가용"이면 회사나 외부 활동, 이동 중에 일어날 수 있는 상황을 고려하여 계단, 엘리베이터, 문 등의 위치를 음성으로 알려준다. "스캔" 모드는 비장애인들에게도 유용한 텍스트 인식 및 음성 변환으로, 구조가 꽤 복잡한 글도 읽어줘서 비장애인 사용자들도 오디오북 용도로 유용하게 쓸 수 있다. 상품의 포장지를 카메라에 인식하면 영양정보를 읽어줘서 자신에게 맞는 제품을 비교하며 찾아갈 수 있으며, 요리책에 나온 레시피를 음성으로 들을 수도 있다.

구글 룩아웃의 전체적인 UI (출처: Google Blog)

구글 룩아웃을 통해서 시각장애인들은 전방의 장애물을 파악하여 이동을 더 자유롭게 해준다. 또한 작은 사물이나 텍스트도 인식하고 음성으로 알려주어 학습, 작업, 예술 창작 등의 활동을 수월하게 한다. 카메라를 통한 사물 인식과 AI의 해석 후 음성 변환이라는 프로세스는 간단해 보이지만, 이는 구글의 방대한 데이터베이스와 오랜 시간 동안 꾸준히 딥러닝을 한 결과다. 기존의 사진 및 영상 분석 시스템은 사진이 흐리거나 흔들리면 분석이 불가능한 경우가 많았다. 사용자가 시각장애인이라는 점을 고려하면, 구도가 완벽하지 않고 흔들림이 심할 수 있다. 룩아웃의 AI는 머신러닝으로 방대한 양의 사진 데이터를 학습하여 흔들리거나 비정형적 구도의 사진에서도 유의미한 사물 및 공간 정보를 추출할 수 있다. 심지어 카메라와 연동하여 실시간으로 정보의 인식-분석-음성 출력이 이루어진다. 여기서 구글이 가지고 있는 AI 기술력의 차이가 난다. 실제로 구글 플레이 스토어 후기를 찾아 본 결과, 정확도가 높고 어느 앱 보다도 빠르게 인식한다는 후기가 많았다. 물론 아직 완벽하지는 않지만 이 정도면 당신의 눈이 되어주는 AI라고 할 만하다.

아직 갈 길이 먼

구글은 시각장애인들에게 세상을 좀 더 편하게 다가갈 수 있고 계속해서 변화하는 주변 환경에 대처할 수 있도록 룩아웃을 개발했다. 룩아웃을 통해 시각장애인들은 주변 상황을 이해할 수 있고 더 독립적으로 활동할 수 있게 되었다. 그러나 룩아웃은 아직 부족한 점이 많으며, 좀 더 나은 눈이 되기 위해서는 갈 길이 멀어 보인다.

우선, 전체적인 인식률은 좋으나 치명적인 인식 오류가 가끔 발생한다. 구글 플레이 스토어 리뷰를 검토한 결과, 별점 1점을 준 리뷰군에서 해당 문제를 알 수 있었다. 눈 앞의 장애물을 인식하지 못 하는 것이 제일 큰 문제였다. 시각장애인들에겐 눈이나 다름 없는 앱이기 때문에 이런 문제는 바로 사고나 부상으로 이어질 위험이 크고 가끔 발생하더라도 피해가 클 수 있다. AI는 계속 학습하기 때문에 미래에는 더 나은 인식률을 보이겠지만 아직까지 보호자나 흰지팡이 없이 단독으로 앱을 쓰기에는 불안하다. 또한, 아직도 앱 접근성이 너무 떨어진다. 2019년 서비스 시작 후 룩아웃은 줄곧 미국에서만 이용할 수 있었다. 2020년 8월 룩아웃 2.0을 발표하며 룩아웃 서비스를 전세계 안드로이드 폰으로 다운로드 가능하게 했지만 여전히 영어, 프랑스어, 스페인어, 독일어, 이탈리아어 5개만 지원한다. 또한 안드로이드 폰 이외의 아이폰은 지원되지 않는다. 언어를 다루고 정확도가 높아야 하는 서비스 특성 상 개발에 시간이 걸리는 것은 당연하다. 그러나 발표된지 2년이 지났음에도 불구하고, 텍스트 스캔이 아니라 간단하게 사물의 정보를 제공하는 경우에도 한국어를 비롯한 더 다양한 언어가 지원되지 않는 다는 점은 이해가 되지 않는다.

또다른 룩아웃의 문제점은 사물의 상세 정보가 아닌 카메라에 잡힌 이미지 묘사에 그친다는 점이다. 구체적인 상황 설정을 위해 우리 주변에 있는 수많은 상품들을 예시로 들어보자. 비장애인의 경우 상품을 표지만 보고도 구분할 수 있다. 내 손 안에 있는 음료수 캔이 코카콜라인지 펩시콜라인지 바로 알 수 있다. 그러나 시각장애인은 각기 다른 표지들을 보지 못 한다. 이들에겐 손 안의 음료수 캔이 어떤 상표인지, 무슨 맛인지, 용량은 얼마나 되는지 등의 정보를 원한다. 그러나 룩아웃은 아직까지는 상품 이미지 스캔만으로는 이러한 정보를 제공해주지 못한다. 아래의 사진 예시를 보면 알 수 있듯이, 룩아웃의 AI는 상품을 상품으로 인식하지 않고 사물 그 자체로 인식한다. 첫번째 사진에서는 AI가 비타민C 용기를 모양이 흡사하여 맥주병으로 오인했다. 두번째 사진에서는 세상에서 가장 유명한 탄산음료인 코카콜라마저 그저 "탄산음료 한 캔"으로 묘사한다. 틀린 정보는 아니어도, 시각장애인들이 원하는 정보는 아니다.

룩아웃을 다운 받을 수 없어 사진은 Mircrosoft의 Seeing AI로 대신 예시를 들었다. 룩아웃도 같은 문제를 겪고있다.

AI가 상품의 이름과 정보를 잘 말해주는 경우도 있다. 표지에 상품명과 상세 정보가 잘 나와 있는 경우에 말이다. 아래 왼쪽 사진을 보면 AI가 상품 표지의 "머스타드"라는 텍스트 정보를 읽어 상품명과 용량까지 말해주고 있다. 이 경우는 그러나 이미지 인식이 아니라 텍스트 리딩이다. 표지에 텍스트 정보가 없거나, 캘리그라피와 같은 디자인적 요소로 상품명을 AI가 읽기 힘든 경우에는 인식하지 못한다. 물론, 이 문제는 구글의 데이터베이스가 빈약해서 생기는 문제는 아니다. 상품의 바코드만 인식시킬 수 있다면 이 문제는 해결된다. 아래의 오른쪽 사진에서, 위 예시 사진과 동일한 비타민C 용기의 바코드를 인식시키자 이에 대한 정보가 바로 출력되는 것을 알 수 있다. 그러나 상품의 바코드 위치를 시각장애인들이 항상 아는 것은 아니다. 바코드를 찾으려고 상품을 이리저리 스캔해야하는 수고에 시간도 더 걸린다. 비장애인들은 한 눈에 알 수 있는 정보를 표지 이미지 스캔으로 한 번에 알 수 없다는 것은 룩아웃이 해결해야 할 큰 숙제다.

왼쪽 사진 출처: bbc.com, Google Lookout: App reads grocery labels for blind people

누구를 위한 서비스를 만들 것인가?

구글은 접근성(Accessibility) 팀과 디렉터를 따로 둘 정도로 이용자들에게 신경을 많이 쓴다. 어떤 이용자들이든 서비스 이용에 차질이 없도록 하는 것이 이들의 의무이자 역할이다. 구글은 또한 전 세계 IT 기업 중에서 장애인에 대한 사업 전략이 가장 뛰어나다는 평가를 받기도 한다.(1) 이들은 이미 포화 상태인 IT 시장에서 장애인과 같은 기존의 IT 소외계층을 확보하는 것이 시장 점유율을 늘리는 방법임을 잘 알고 있다. 특히 장애인의 스마트폰 보유 비율이 75%를 넘어가는 추이를 고려하면, 구글은 이들의 접근성을 위해 지금보다 더 투자해야 한다. 만약 투자의 문제가 아니라면, 좀 더 장애인의 관점에서 서비스와 UX/UI를 기획하고 디자인 해야한다. 룩아웃이 위와 같은 문제를 아직 겪고 있는 것은 구글의 AI 개발 어젠다에 장애인에 대한 고려가 포함이 되어 있는지를 의심케한다. 앱을 소개한지 2년이 지났는 데도 기기 종류에 따라서, 지역과 언어에 따라서 서비스를 이용하지 못 하는 경우가 생겨서는 안 된다. 마찬가지로, 표지 이미지 스캔으로 기본적인 정보 조차 알 수 없다면 서비스 UX/UI와 알고리즘을 다시 생각해보고 보완해야 한다.

일반적인 사람들이나 기업의 의사 결정권을 가진 사람들이나 여전히 AI를 단편적인 수단으로만 여기는 경우가 많다. 그리고 이 수단은 보통 단기적인 관점에서 기업의 이윤 극대화만을 고려한 경우다. 현재의 AI 개발 방향은 비즈니스에서 효율성과 생산성을 증대시키는 측면에 집중되어 있다. 따라서 AI 기술 자체는 고도화되고 있지만 좀 더 장기적인 관점에서 장애인, 디지털 소외계층을 위한 AI 기술 적용은 상대적으로 더디다. 기술 자체를 발전시키는 일은 연구실에서나 의미있다. 이제는 기업이 장애인들과 같은 사회적 약자나 디지털 소외계층에게 AI 기술을 적용시킨 서비스를 제공하는 데에 더 많은 관심을 기울여야 할 때다.

(표지 사진 출처: worldpress.com)

(1) https://www.hankyung.com/it/article/202004260393i

연세대 영어영문 이동현

paul3ldh123@gmail.com

keyword

연세대 경영혁신학회 BIT 소속 연세대학교

연세대학교 경영혁신학회 BIT가 작성한 인사이트 저널을 소개합니다. BIT만의 예리한 시각으로 트렌드를 분석하고 인사이트를 공유합니다.

구독자 530

매거진의 이전글당신의 글쓰기, AI가 고쳐드립니다디지털 트윈, 미래를 알 수 있는 것처럼매거진의 다음글