네이버와 카카오의 2021년 Tech 컨퍼런스 리뷰
지난 11월, 네이버와 카카오에서 2021년 테크 컨퍼런스를 열었습니다. 네이버와 카카오는 IT 기술 기반의 회사인 만큼 매년 테크 컨퍼런스를 통해 새로운 IT 기술을 공유하고 앞으로 나아갈 방향을 공개합니다. AI에 대한 관심은 예년과 같이 뜨겁습니다. 두 회사 모두 Vision AI, 자연어 처리, 음성 합성과 같이 다양한 분야의 AI 기술을 발표했습니다. 이 글은 그중 양사의 vision AI 기술 개발 현황과 적용된 서비스의 공통점과 차이점을 다룹니다.
컴퓨터 vision AI 기술은 크게 OCR(글자 인식)과 이미지 인식, 이미지 생성으로 나눌 수 있습니다. 네이버와 카카오가 발표한 vision AI 세션의 개수는 비슷한 수준입니다. 네이버의 vision AI 관련 세션 수는 8개 (OCR 2개, 이미지 인식 3개, 이미지 생성 3개), 카카오는 총 7개 (OCR 3개, 이미지 생성 2개, 이미지 인식 2개)입니다. 세션의 개수와 분류는 비슷하지만 vision AI 기술을 적용한 서비스 모습은 서로 다릅니다.
Vision AI 기술 중 실제 서비스에 가장 많이 맞닿아 있는 기술은 OCR입니다. OCR(Optical Character Recognition)은 글자를 읽는 기술로, 역사가 오래된 vision AI 기술입니다. OCR 기술은 개발된 지 오래된 만큼 안정적인 성능을 보여주지만, 100% 정확하지는 않습니다. 특히 간판과 같은 현실 세계의 글자들은 글자의 방향, 간격, 크기, 모양이 모두 제각기 다르므로 정형화된 문서만 학습한 OCR 기술은 인식 정확도가 떨어집니다. 따라서 네이버와 카카오 모두 OCR 기술의 정확도를 높이는 연구를 진행하고 있습니다.
네이버에 적용된 OCR 기술부터 볼까요? 네이버는 OCR 기반의 이미지 번역, 영수증 리뷰 서비스를 소개합니다. 먼저, 이미지 번역 서비스는 외국어 텍스트가 포함된 이미지 위에 번역된 텍스트를 얹어서 보여주는 서비스입니다. 카메라에 담긴 텍스트를 실시간으로 번역해서 볼 수 있습니다. 사용자가 촬영하는 이미지는 정형적이지 않으므로 네이버는 다양한 오류 케이스를 미리 확인하고 개선했습니다.
네이버 MY플레이스 사용자는 영수증을 업로드하고 후기를 남겨 적립금을 받을 수 있습니다. 사용자가 영수증 이미지를 업로드하면 OCR 인식 후 사용자가 방문한 장소와 시기, 구매한 상품 정보, 결제 수단이 자동으로 입력됩니다. 사용자가 일일이 찾거나 입력하지 않아도 리뷰할 내용을 쉽게 등록할 수 있죠.
네이버는 영수증을 인식하기 위해 OCR 기술로 사용자가 촬영한 영수증 사진에서 글자 영역을 찾고, 주어진 영역 속에서 글자를 읽어온 후, 주어진 문자열을 분석하여 상호명/날짜/주소와 같이 카테고리를 나눕니다. 그 후 네이버가 보유한 음식점/카페 상호명 DB와 매칭하는 작업을 거칩니다. 네이버는 현재 글자 인식을 위해 수행하는 영역 찾기, 인식하기, 분석하기로 이루어진 별도의 모델들을 합쳐 하나의 모델로 처리하는 방법을 연구하고 있습니다.
반면 카카오는 카카오 페이의 신분증 OCR 인식 기술을 소개했습니다. 신분증과 카드 OCR 인식 기술은 대부분 이미 사용해봤을 텐데요, 카카오는 OCR 기반으로 새로운 서비스를 개발하기보다는 OCR 인식 성능을 개선하는 데 초점을 맞췄습니다.
"카카오페이에서는 비대면 신분증 인증 범용 문서 OCR 기술 등을 꾸준히 연구 개발하고 있으며 비대면 신분증 인식 기술은 이미 국내 최고 수준이라고 말씀드릴 수 있습니다. ... OCR 신분증 인식 기술을 내재화하는 과정에서 초기 에러율은 30% 수준이었지만 현재 10% 이하로 낮추었습니다."
- 세상의 모든 금융을 카카오페이로 마음 놓고 할 수 있다면? 中
이미지 인식 기술 중 가장 서비스에 많이 적용된 기술은 "얼굴 인식" 기술입니다.
먼저, 카카오는 얼굴 인식 기술을 카카오페이의 주민등록증의 사진 진위 여부를 판단할 때 사용합니다. 주민등록증의 사진 인식률이 떨어지는 이유는 대부분 사진이 흔들리거나 훼손이 발생해서입니다. 카카오페이는 정부의 가명으로 처리된 신분증 데이터를 카카오페이 데이터와 결합하여 신분증 사진 인식 정확도를 개선했습니다. 전체 금융사의 신분증 얼굴 인식 평균 에러율이 10%인 반면 카카오 페이는 3%대로 가장 높은 인식률을 보입니다.
네이버는 단말에서 구동되는 얼굴 인식 기술인 "Clova Face Kit"을 개발했습니다. 단말이란 모바일 기기를 뜻하며, 서버와 연결이 없이도 작동하므로 인터넷이 없는 상황에서도 얼굴 인식 기술을 사용할 수 있습니다.
Clova Face Kit이 적용된 대표적인 예시는 강남언니 서비스입니다. 강남언니는 성형수술 관련 애플리케이션으로, 성형 후기 이미지가 서비스에 큰 영향을 미칩니다. 하지만 서비스 사용자의 다수는 신원을 가리기 위해 리뷰를 작성하지 않거나 이미지를 직접 편집해야 했죠. 강남언니는 네이버의 Clova Face Kit으로 사용자가 보여주고 싶지 않은 이목구비 영역을 선택하고, 블러 처리하는 기능을 개발했습니다.
이미지 생성 기술은 아직까지 상용화와 가장 거리가 멀지만 흥미로운 주제로 활발히 연구되고 있습니다. 네이버에서는 3개의 세션이, 카카오에서는 2개의 세션이 이미지 생성 기술을 다루었습니다. 이미지 생성 기술은 주로 GAN (Generative Adversarial Network) 알고리즘을 사용합니다. GAN은 이미지를 "생성"하는 AI로, 수많은 이미지의 공통점을 학습하고 비슷한 이미지를 생성합니다.
카카오의 Nickface 프로젝트는 AI를 이용해 사용자가 원하는 가상의 얼굴을 생성합니다. 가상의 얼굴을 만들기 위해 이목구비 외의 배경으로 사용할 이미지 A와 이목구비(눈 모양, 얼굴형 등)를 가져올 이미지 B를 합칩니다. 세상에 없는 사람을 만들어내고, 이를 닉네임처럼 온라인에서 나를 대신할 아바타로 활용하는 것을 목표로 하지만 아직은 연구 단계에 있습니다.
네이버 컨퍼런스에 참석한 알레시오 주식회사의 Babyface 서비스는 임신 25주 차에 찍는 입체 초음파 사진을 GAN을 통해 실제 아기 얼굴로 변환해주는 서비스입니다. 초음파 사진 특성상 손으로 얼굴이 가려지거나 이미지 왜곡이 자주 발생합니다. 알레시오는 가려진 부분과 왜곡에 대한 예측 기술을 개선해 예측된 이미지의 질을 높였습니다.
네이버와 카카오 모두 이미지 생성 기술을 더 적극적으로 개발하고 서비스에 적용할 것으로 예상합니다. 아직까지 GAN은 재미있는 기술 정도로 다루어지지만, 앞으로는 상용화에 조금 더 박차를 가할 것입니다. 새로운 기술이 개발되었으니 머리를 맞대어 실제 서비스에 적용할 방안을 찾아내겠죠. 예를 들어, GAN을 메타버스에 접목시킬 수 있습니다. 메타버스의 세상에서는 아바타가 중심이라는 점에서 GAN 기술 접목이 용이합니다. GAN은 실제 얼굴뿐만 아니라 일러스트나 캐릭터 생성이 가능하기 때문입니다.
마지막으로, 얼굴 인식 기술을 출입 등록의 목적이 아닌 사진 편집 기술에 적용한 강남언니와 같은 사례가 늘어날 것입니다. 화려한 기술은 아니지만 AI 이미지 편집 기술이 사용자의 이미지 업로드 시간을 줄이고 덕분에 리뷰 작성 장벽이 낮아진다면, 실제 서비스 사용성을 개선할 뿐만 아니라 사업적으로도 이득이 될 것입니다. 기존에 AI 기술을 먼저 개발한 후 이를 적용하기 위해 서비스를 개발하는 수준에서 한 단계 발전된 형태입니다. 이와 같이 사업 상에 비교적 직접적인 이득을 가져오는 vision AI 기술 적용 사례가 늘어나리라고 기대합니다.