라이벌 Shazam은 기울어가는데, SoundHound는 왜 잘 나갈까?
유니콘(Unicorn)은 전설 속의 동물인, 이마에 뿔이 달린 말이다. 동시에, 기업가치가 1 Billion US Dollar (부르기 쉽게 1조 원이라고 치자)를 넘어선 스타트업들을 칭하는 단어이고, 유명한 벤처투자가인 Aileen Lee가 2013년에 처음 그리 부르면서 일반명사화되었다. CB Insight라는 연구기관이 이를 친절히 정리해 주고 있고, 그 숫자는 기하급수적으로 늘고 있다. 백만장자의 1천 배 되는 사람들이 급증하고 있다는 뜻이다. 이러한 유니콘들 중 흥미로운 기업들을 골라, 무엇을 하는 회사이고, 어떠한 사업모델과 전략을 추진하고 있는지를 쉽게 풀어보려고 한다.
카페에서 처음 듣는 노래가 나오는데 너무 좋아서 검색해 본 경험들이 있을 것이다. 네이버에 음악 검색 버튼도 가능하고, 구글에서도 가능하다. 이러한 서비스가 나오기 전에는 Shazam이라는 앱을 다운로드 받아서 썼었다. SoundHound는 이러한 음악 검색 서비스를 중심으로 시작된 회사다.
** 잠깐 여기서, 상식을 넓힌다는 차원에서, 음악 검색의 원리를 살펴보고 넘어가자. 머릿속에 떠오른 음악이 뭔지 궁금해서 음악 검색 앱 켜놓고 노래를 직접 시연하신 분들도 계실 거다. 그 방법이 안 통하는 이유는, Finger Printing이라는 기술의 원리 때문이다.
Finger Printing: 한글로는 "지문 채취"라는 뜻이다. 영화를 예로 들어 보자. 초 당 24개의 사진(프레임)을 연속 상영하는 원리는 다 잘 알 테고, Finger printing은, 각 프레임 별로, 화면의 특정 영역 여러 군데를 복사 (지문 채취)해서 그 값을 저장한다. 예를 들어, 10분짜리 동영상은, 10분 x 60초 x 24 프레임 = 14,400개의 프레임으로 구성되고, 프레임별로 추출한 지문들을 일종의 데이터베이스로 저장이 가능하다.
Youtube에 올라온 동영상 중에 간혹 좌우를 바꾸거나, 화면 크기를 다르게 만든 경우들을 본 적이 있을 것이다. 이는 바로 서버에 저장된 Fingerprinting 값과 다른 값을 생성시켜서 검색을 회피하기 위한 편법이고, 종종 통한다. 즉, Youtube에서는 새 동영상의 프레임별 지문을 채취해서, 기존의 데이터베이스에 검색을 돌려서, 동일한 값이 나오면, 같은 동영상으로 인지한다.
Watermarking: Finger printing이 최종 화면에 뿌려지는 동영상을 분석하는 방식인데 반해, Watermarkting은 보내는 측에서 동영상을 송출할 때, 특정 데이터를 삽입하는 방식이다. 물론, 그 데이터는 눈에 보이지 않는다. 구글 Play 무비에서 영화를 보다가 일시정지를 누르면 아래와 같이 출연진에 대한 정보가 나온다. 이는 영화의 장면별로 출연진 정보가 삽입이 되어 있다는 뜻이다. 이를 Watermarking이라고 부른다.
Watermarking의 미래는 커머스와의 연계이다. 아래 사진과 같이 영화나 드라마를 보다가 마음에 드는 물건이 있으면 바로 구매로 연결이 가능할 수 있는 기능이다. 중국의 커머스의 강자인 JD.com, Alibaba 등이 준비 중이다.
위에서 살펴본 Fingerprinting을 음악에 적용시킬 수 있고, 이것이 음악 검색의 기본 원리이다. 즉, 음악을 몇 초 간격으로 데이터(지문)를 추출하여 데이터베이스에 저장해 놓고, 검색 App이 실행되면, App은 몇 초 간격으로 데이터(지문)를 추출하여 서버로 보내고, 서버에서는 데이터베이스를 검색해서 매칭 결과를 돌려주는 개념이다.
이러한 음악 검색은 SoundHound 보다 Shazam이 앞서 있었다. 게다가 네이버, 구글 등이 음악 검색 서비스를 직접 제공하면서 그 희소가치는 떨어지고 있다. 그러면, Soundhound는 어떻게 이를 극복하고 유니콘 클럽에 가입할 정도로 발전하였는가? 바로 대화형 인터페이스(conversational interfaces)의 강자로 자리매김할 가능성 때문이다.
SoundHound가 포화상태가 되어가는 음악 검색 서비스를 넘어서 야심 차게 진출한 분야가 바로 Houdify라고 하는 다소 촌스러운 이름 (Spotify를 연상시키는)의 대화형 인터페이스 플랫폼이다. 최근 웬만한 회사들은 다 내놓고 있는 대화형 인터페이스는 대부분 유사한 형태이다. 아래 그림을 살펴보자.
Echo라는 스피커처럼 생긴 기기를 사서 설치하고 "Alexa"라고 부르면 그때부터 인공지능의 도움을 받아서 질의응답이나 쇼핑 등을 할 수 있게 된다. 미국에서는 엄청난 인기를 끌고 있고, 한국에서는 자녀 영어공부 목적으로 인기가 있다고 한다. Amazon은 Alexa+Echo를 통해 음악도 팔고 물건도 팔고 핵심 수익모델과의 접점을 늘려가고 있다. Amazon은 Echo와 Alexa, 그리고 E-commerce에 이르는 전체 가치사슬을 폐쇄형 (Closed)으로 구성했다. 즉, Alexa기능을 탑재한 인터페이스 단만 제삼자 (Third Party)들에게 열어주는 경우를 제외하고 수익모델은 남에게 내어주지 않는 정책이다.
Google도 마찬가지다. Google Assistant를 Google Home이라는 스피커에 연결해서 주력사업인 검색광고로 이어지도록 하는, 역시 현재까지는 폐쇄형 전략으로 볼 수 있다.
반면, SoundHound는 고객단의 인터페이스뿐 아니라, 수익모델까지도 제삼자들에게 활짝 열어 놓았다. 현대차와의 제휴를 통해 전장에 SoundHound 기능을 탑재해서 운전하다가 "신나는 음악 좀 틀어줘", "Tom Jones에게 전화 좀 걸어줘", "집에 곧 도착할 것 같으니 에어컨 좀 틀어줘" 등의 음성 명령 해석기능을 제공해 준다. 현대차는 이를 마케팅으로 적극 활용해서 본업인 자동차 판매를 증가시킬 것이다. 인공지능 솔루션이 필요한 현대차 같은 회사들을 적극 끌어들여서, 이들을 엮어주는, 오플 플랫폼 전략이 SoundHound를 인공지능의 떠오르는 강자로 만들어준 배경이다. 현대차에게는 솔루션 판매, Spotify에게는 중개수수료를 청구하는 사업모델을 적용했지만, 플랫폼의 특성상 일단 생태계 참여자가 늘어나면, 수익모델도 그만큼 다양해 지기 때문에, 앞으로 사업모델이 계속 진화할 것으로 예상된다.
지금까지 소비자가 IT기기를 상대하는 방법은 눈(화면)과 손가락(키 입력)이 중심이었다. 최근 Amazon Alexa를 필두로 KT 기가지니 등 가상 비서 (Virtual Assistant)가 대거 등장하면서 귀(스피커)+입(음성 명령)이 또 다른 인터페이스로 떠오르고 있고, 비중은 지속 늘어날 것으로 예상된다.
이러한 음성 기반 인터페이스를 필요로 하는 회사의 수와 이들 중 음성 기반 인공지능 솔루션을 보유한 회사가 얼마나 될까? 극소수이다. 그러면, 나머지는 어떤 형태로던 외부 솔루션을 찾아서 도입해야 되는데, 대표적으로 안정적이며 개방적인 솔루션으로 SoundHound의 Houndify가 꼽히고 있다. SoundHound의 인공지능 서비스를 통해 Uber를 호출할 수 있듯이, 현재 서비스되고 있는 수많은 App 뿐 아니라, 자동차/비행기 등을 포함한, 무수한 서비스들이 Houndify에 연동될 미래를 가정한다면, SoundHound의 발전 가능성은 끝이 보이지 않을 정도이다.
#SoundHound #Houndify #Spotify #Uber #VirtualAssistant #인공지능 #AI #Amazon #Alexa #음성인식 #유니콘 #Unicorn #Shazam #현대차