하버드 비즈니스 리뷰의 인공지능 관련 글들을 읽으면서 AI가 우리 주변에서 널리 사용되고 있다는 것을 느꼈습니다. 그래서, 필자가 몸담고 있는 비즈니스 업계에서 인공지능 기술이 어디까지 왔고 얼마나 활용되고 있는 지를 정리합니다. 필자가 가장 잘 아는 시스코 웹엑스 서비스가 인공지능을 어떻게 적용하는 지를 살펴보겠습니다.
일반적으로 페이스 디텍션(Face Detection)과 페이스 레커그니션(Face Recognition)을 한국어로 번역할 때 얼굴인식 또는 안면인식이라고 합니다. 그러나 기술적으로 명확히 구분할 수 있습니다. 먼저 디지털 이미지에서 얼굴을 검출(Detection)한 뒤에 얼굴에서 눈, 코, 입, 점, 주름 등의 상대적 위치를 찾아(Localization) 낸 뒤에 기존 정보와 매칭 된 얼굴을 찾아내고 인식합니다. ( Recognition)입니다. 기술적인 성숙도는 페이스 디텍션보다 페이스 레커그니션이 더 복잡하고 어렵습니다.
안면인식 기술은 광범위하게 사용되고 있습니다. 우리 일상에서는 생체인식 기술로 스마트폰의 잠금해제와 결제시스템에 사용되고 있습니다. 마케팅 분야에서는 광고나 디스플레이를 보고 있는 사람의 숫자를 세는 수준에서 대상의 성별과 연령대를 구분하여 적절한 광고를 보여주기도 합니다. 예를 들어, 아이와 함께 가족이 걸어가고 있다면 장난감이나 근처의 식당을 소개하고, 젊은 연인들이 걸어가고 있다면 커피숍이나 추천 데이트 코스를 보여줍니다.
또한, 아직 완벽하지는 않지만 안면 인식 기술로 CCTV로 찍은 디지털 이미지에서 범죄자의 얼굴을 구별할 수 있습니다. 조명과 각도에 따라 모두 제 각각인 얼굴들과 안경과 모자 등으로 가려진 사람들의 얼굴을 인지하는 것은 아직도 어려운 부분입니다. 하지만, 시간이 지날수록 안면인식 기술은 더욱 발전할 것입니다. 예로 얼굴 사진을 바탕으로 과거와 미래의 모습을 추측하는 인공지능은 매우 높은 싱크로율을 보이고 있습니다.
안면인식 기술은 지속적인 발전을 거듭하여 이모션 레커그니션(Emotion Recognition)의 단계까지 진화하였습니다. 감정 인식은 수많은 도덕적 논란을 야기할 것입니다. 사람들은 자신의 감정을 통제하기 어렵고, 의도하지 않은 사적인 감정이 노출될 수 있기 때문입니다. 누군가를 싫어하거나 좋아하는 감정을 숨겨왔던 사람들이 의도치 않게 노출될 때의 혼란은 상상 이상일 것입니다.
영상회의 업계는 안면인식 기술에 많은 투자를 합니다. 영상회의가 구축형 기반에서 클라우드 기반 플랫폼으로 진화하면서 사람들은 인공지능을 저렴하고 손쉽게 사용합니다. 시스코는 최근 몇년간 영상회의 단말이 인공지능을 활용할 수 있도록 NVIDIA칩을 탑재하고 성능을 향상하였습니다.
시스코는 얼굴검출 (Face Detection) 기술로 회의 참가자의 수를 계산하는 피플 카운트 기능을 활성화하여 다양한 응용 서비스를 만들었습니다. 첫째, 회의 시간 동안 몇 명의 참가자가 있었는 지를 지속적으로 추적합니다. 원격 회의나 원격 교육에 참가자들의 예상인원과 비교하여 효과를 측정할 수 있습니다. 둘째, 사람들의 얼굴이 화면을 응시하지 않으면 얼굴 검출이 되지 않습니다. 원격 회의나 교육에 참석은 하였으나 다른 일을 하느라 집중도가 떨어지는 지는 것을 쉽게 파악할 수 있습니다. 셋째, 회의를 예약하고 실제 참석 여부를 확인합니다. 예약된 시간에 얼굴이 검출되지 않고, 스마트폰 페어링이 되지 않으면 회의가 취소된 것입니다. 회의 예약시스템이 기존 예약을 자동으로 해제하여 다른 사람들이 회의실을 사용할 수 있게 합니다.
아래 사진에서 흰색 박스는 화자 추적을 의미하고, 녹색 박스는 얼굴 검출을 나타냅니다. 두 개의 녹색 박스는 화자를 가리킵니다
넷째, 회의실 참가자 수를 지속적으로 추적하여 빅데이터화합니다. 빅데이터는 각 층별 회의실 설계의 기본 자료가 됩니다. 4인용 회의실에 6명이 주로 사용하거나 10인용 회의실을 주로 2명이 사용한다는 사실을 데이터에 기반하여 확인할 수 있고, 다음 사무실 레노베이션을 할 때 이 데이터는 회의실 디자인의 주요 근거 자료가 됩니다.
원격 회의 참가자의 얼굴검출이 가능해지면서 오토 프레이밍 (Auto Framing) 기능을 지원합니다. 오토 프레이밍 기능은 회의실의 참가자 얼굴을 인지하여 가장 최적의 화면을 구성하는 것입니다. 얼굴검출 AI는 사람의 개입을 최소화하면서 효율적인 영상회의가 가능하게 합니다.
화자 추적은 카메라가 말하는 사람을 추적하여 자동으로 줌인하는 기술입니다. 화자 추적은 얼굴과 움직이는 입모양을 검출하는 것이 아니라 소리의 근원지를 파악하는 방법을 활용합니다. 화자 추적 카메라는 6개 이상의 마이크로 화자의 상대적 위치를 파악합니다. 현재의 화자 추적은 음성 위치 추적과 얼굴검출(Face Detection) 기술을 결합하여 훨씬 정교한 화자 추적이 가능합니다.
2012년 이미지 인식 경진대회에 딥러닝 기반의 알레스 넷이 83.6%의 정확성을 기록하면서 이미지 인식 분야에 새로운 전기를 마련하였습니다. 이후부터 많은 기업들이 안면인식 분야에 딥러닝 기술을 적용하였고, 현재 이미지 인식률은 사람의 오차율보다 적은 2.3% 수준입니다. 시스코는 영상회의 분야에서 얼굴인식 AI의 가능성을 보았습니다.
영상회의 분야는 얼굴검출 (Face Recognition) AI를 활용하기 위해 많은 노력을 기울였습니다. 시스코는 2019년 말부터 안면인식 AI 기술을 정식으로 시스코 웹엑스에 적용하였고, NVIDA칩을 탑재한 룸 킷 시리즈 장비에서 얼굴 인식 서비스를 제공합니다. 원격 회의 중에 상대방의 이름이 네임태그로 달리면서 실제보다 더 효율적인 회의가 가능합니다.
안면인식은 우리 주변에서 생체보안 분야뿐만 아니라 CCTV의 디지털 이미지에서 범죄자를 찾아내는 것과 같은 분야에 적용되고 있습니다. 안면인식을 생체 보안을 넘어 감정 인식의 분야까지 확대되면 비즈니스 분야뿐만 아니라 일상생활에 큰 변화를 일으킬 것입니다. 시스코는 영상회의 분야에서 안면인식 AI를 적용하여 큰 성과를 내었습니다. 그리고, 현재는 인식률이 크게 높지 않다는 문제점이 있으나 인공지능의 장점인 학습을 통한 지속적인 개선이 이루어지면 영상회의를 새로운 단계로 끌어올릴 것입니다.