AI 기반 오디오 콘텐츠의 부상, 어떻게 볼 것인가?
| 이 글은 관훈저널 2018 9월호에 기고된 글입니다. |
역설 : 라디오의 좌절과 오디오 콘텐츠의 부상
1938년 10월30일 미국의 라디오 단막극 <생방송 머큐리 극장> 때문에 벌어진 소동은 매스미디어 효과이론을 언급할 때 빠지지 않고 등장하는 단골 소재다. 뉴스 형식을 차용한 라디오 극 때문에 당시 청취자들은 ‘진짜 외계인들이 지구를 공습했다’고 착각하고 공포에 질려 거리로 쏟아져 나왔다. 라디오 수신기를 구경하기조차 어려운 지금으로서는 도무지 상상도 할 수 없는 일이다.
2017 언론수용자 의식조사에 따르면 라디오 이용률은 2011년 34.6%에 이르던 것이 2017년 16.7%까지 급감했다. 특히 낮은 연령대에서는 10%의 벽마저 무너져 20대 이용률은 5.4%에 불과하다. 뉴스 콘텐츠로 분야를 좁혀도 양상은 다르지 않다. 라디오를 통한 뉴스 이용률은 2011년 26.8%를 기록하던 것이 지난해 조사에서 9%로 추락했다.1)
그런데 흥미로운 사실은 이처럼 라디오 이용률과 라디오를 통한 뉴스 콘텐츠 소비가 급감하고 있는데 같은 오디오 콘텐츠인 팟캐스트는 오히려 사용자가 늘어나고 있다는 점이다.2) 팟캐스트 이용자 676명의 응답을 통해 분석한 결과를 보면 그 이유가 분명해 진다. 팟캐스트 때문에 TV는 42.6분, 라디오 20.2분, 인터넷 38.1분 이용시간이 줄었다고 응답했다. 국내 시장에 국한된 현상도 아니다. 미국 자료를 보면 팟캐스트 월간 청취율은 지난 2008년 9.0%에서 2017년 24.0%로 높아졌다.3) 다시 말해, 오디오 콘텐츠 수요가 줄어든 것이 아니라 소비하는 방식(플랫폼)이 변하고 있는 것이다.
이런 상황에서 오디오 콘텐츠를 유통하는 또 다른 플랫폼이 본격적으로 시동을 걸고 있다. ‘AI 비서’, ‘AI 스피커’, ‘음성인식 스피커’ 등으로 불리는 서비스다.
구글과 마이크로소프트, 아마존, 애플이 치열하게 맞붙고 있고4) 국내에서는 네이버, 카카오 등 양대 포털과 SKT, KT 등 통신사업자, 삼성전자 같은 가전사들까지 뛰어들어 경쟁을 벌이고 있다. 특히 AI 분야에서 가장 앞서나가는 구글이 올 하반기부터 국내시장에서 ‘AI 비서’ 서비스를 본격적으로 시작한다고 밝혔다. 국내 시장규모는 현재 연간 100만대 정도지만 2020년에는 연 21억 달러의 큰 시장으로 발전할 거라는 예상도 나오고 있다.5)
몇 가지 질문이 떠오른다. 아직 그다지 영리해 보이지도 않는 ‘AI 비서’에 왜 IT공룡들과 국내 굴지의 포털, 통신사들까지 모두 뛰어들고 있는 것일까? ‘AI 비서’에서 오디오 콘텐츠, 특히 언론사의 뉴스 콘텐츠는 도대체 어떤 방식으로 유통된다는 것일까? 이런 오디오 콘텐츠, 오디오 뉴스는 유료화할 수 있는 방법이 있는 것일까?
오디오 콘텐츠와 AI 비서 : 제2의 아이폰 혁명?
2007년 스티브 잡스가 아이폰을 들고 나온 바로 그 시점에, 콘텐츠 유통에 있어서 혁명적인 변화가 나타나게 되리라는 사실을 제대로 인식한 사람은 그리 많지 않았을 것이다. 아이폰은 카메라, 계산기, 녹음기 등 수 많은 소형 전자기기들을 삼켜버렸다.
콘텐츠 유통에서도 비슷한 일이 벌어졌다. 신문이나 책을 펼쳐놓고 읽던 출근길 지하철의 풍경이 완전히 사라졌다. 이제 뉴스를 보기 위해 저녁시간에 TV앞에 앉는 사람을 찾아보기 힘들다. 키보드나 마우스 없이도 화면을 조작할 수 있는 ‘터치스크린’이라는 새로운 사용자인터페이스(user interface)가 항상 연결되어있는 휴대전화와 결합되었기 때문에 일어난 변화였다.
세계적인 IT업체들이 지금 AI 비서에 주목하고 있는 이유도 유사하다. ‘인간의 대화’를 실시간으로 처리하는 새로운 사용자인터페이스가 무섭게 발전하고 있는 인공지능, AI와 결합되면 또다시 혁명적인 변화가 나타나리라고 예측하는 것이다. 6)
사용자인터페이스의 변화는 콘텐츠 유통방식을 변화시키는 것은 물론, 필연적으로 새로운 상품과 새로운 거래를 만들어내게 된다. 벌써 AI 비서는 스마트폰에 머물지 않고 자동차(안드로이드 오토), 집(AI 스피커) 등으로 영역을 확장해가고 있다.
인텐트(intent) : 콘텐츠를 불러내는 열쇠 말
AI 비서는 말을 시켜 콘텐츠를 불러내는 식으로 작동한다. 따라서 어떤 ‘열쇠 말’(intent)7)에 특정 콘텐츠가 연결되는지가 매우 중요하다. 지금까지는 이 문제를 AI 비서 사업자(통신사나 포털)가 콘텐츠 생산자(언론사)와 배타적 독점계약을 맺는 방식으로 풀었다. 네이버와 카카오는 각각 YTN, 연합뉴스TV와 계약을 맺고 AI 비서 서비스를 통해 오디오 뉴스를 내보내고 있다.
그러나 앞서 언급한 대로 구글이 ‘구글 어시스턴트’를 통해 국내 시장에 본격 진입하고, 다른 AI 비서 서비스들도 다양한 뉴스 콘텐츠를 필요로 하게 되면서 시장 방향은 곧 달라질 것으로 보인다. 즉 독점계약에서 RSS8)를 통한 유통으로 바뀔 가능성이 있다. 이렇게 되었을 때, 예를 들어 “MBC뉴스 틀어줘”라는 열쇠 말에는 당연히 MBC뉴스를 틀어주겠지만, 그냥 “뉴스 틀어줘”라고 말을 했을 때 어떤 방송사, 혹은 어떤 신문사의 뉴스를 들려주게 되는 지가 중요해지게 된다는 뜻이다.
현재 구글의 경우, 내부적으로 “뉴스 틀어줘”(일반), “MBC 뉴스 틀어줘”(언론사), “스포츠 뉴스 틀어줘”(분야) 등 세 가지 방식으로 뉴스를 불러내는 방식을 쓴다. “뉴스 틀어줘”라고 했을 때 어느 언론사의 뉴스를 제공할 것인지는 구글 어시스턴트 설정을 통해 기본 값(default)을 정하게 하겠다는 방침이다.
U+와 손을 잡은 네이버의 경우 지금은 YTN과 독점계약을 맺고 있지만 앞으로 복수의 언론사가 준비가 된 시점에는 “뉴스 틀어줘”라는 열쇠 말이 등장했을 때 “MBC, SBS, KBS 뉴스가 있습니다. 어떤 뉴스를 선택하시겠습니까?”라는 ‘가이드 발화’를 내보내 선택을 할 수 있게 하는 방안을 내부적으로 검토하는 것으로 알려졌다.9)
사람의 목소리 vs 기계음(TTS)
현재 언론사들은 실제 아나운서의 목소리로 뉴스를 녹음한 파일을 네이버 등 AI 비서 사업자에게 보낸다. 9월부터 시작될 구글 어시스턴트 서비스에 공급되는 SBS와 MBC의 오디오 뉴스 콘텐츠도 역시 아나운서가 직접 녹음한 것이다. 언론사가 TTS(Text To Speech)엔진10)을 보유하고 있지 않고11), 아무래도 아직까지는 TTS엔진 품질이 전문적으로 뉴스를 읽는 아나운서만큼 자연스럽지 않기 때문이다.
그러나 아나운서의 녹음 방식은 시간과 비용의 문제 외에도, 개별 뉴스의 자유로운 조합이 불가능하다는 약점이 있다. 따라서 가까운 미래에는 기계음을 이용한 오디오 뉴스가 더 보편적인 방식이 될 가능성이 있다. 예를 들어 TTS를 활용할 경우, 사용자의 요구에 따라 최신 뉴스 조합, 경제 분야 뉴스 조합, 정치 분야 뉴스 조합, 특정 사건(특정 키워드) 중심 뉴스 조합 등을 시시각각 만들어내는 게 가능하다. 실제로 카카오 미니의 경우, “뉴스 들려줘”라는 ‘열쇠 말’에는 아나운서가 녹음한 뉴스 음성 파일을 들려주지만, “최신 뉴스 들려줘”라는 ‘열쇠 말’에는 TTS 엔진으로 뉴스를 읽어준다. 12)
음성 뉴스의 저작권과 광고시장
앞으로 AI 비서로 호출되는 오디오 뉴스가 활성화된다면, 언론사와 포털 사이에 뉴스 전재 계약도 재검토되어야 할 것이다.
그동안 언론사들이 네이버와 카카오 등 양대 포털과 맺은 전재 계약을 보면 계약 내용에 기사가 ‘어떤 형태’로 ‘어떤 범위’까지 사용될 것인지를 규정하는 부분도 포함된다. 그런데 언론사가 공급한 텍스트 뉴스를 포털이 보유한 TTS로 읽어 사용자들에게 오디오 뉴스로 서비스했을 때, 그 오디오 뉴스가 텍스트 뉴스를 기반으로 원저작물을 변형한 2차 저작물인지 여부 등 새로운 법적 다툼이 생겨날 소지가 있다.
또 오디오 뉴스 콘텐츠를 생산하는 것은 별도의 비용이 발생하는 일인 만큼, 언론사들로서는 어떤 방법으로 오디오 뉴스 유통을 통해 수익을 낼 수 있을지 고심하게 될 것으로 보인다. 앞서 언급했듯이 오디오 뉴스 콘텐츠 시장이 사업자(포털, 통신사, 가전사 등)와 언론사의 독점 전재계약으로 유지되기 어려울 것이기 때문이다.
기존 팟캐스트를 통한 오디오 콘텐츠의 경우, 동영상 콘텐츠에 붙는 프리롤 광고(pre-roll Ads)처럼 콘텐츠 시작 전에 오디오CM를 재생하는 방식13)이 많았는데 최근 네이버가 콘텐츠를 직접 구매하는 방식을 도입했다. 14) 과거 국내에서 짧은 동영상 콘텐츠에 대한 광고가 SMR15)을 통한 프리롤 광고'로 정리 되었던 것처럼, 앞으로 ‘조각 오디오 뉴스’, 혹은 ‘조각 오디오 콘텐츠’의 유통과 관련해서도 새로운 구조가 만들어질 것으로 보인다.
스마트폰과 Youtube 그리고 AI
아이폰이 처음 나온 2007년 당시 통신환경은 2G에서 3G로 넘어가고 있었다. 그래서 그 진가가 처음부터 분명하게 나타나지는 않았다. 아이폰은 물리적 자판이 달린 블랙베리와 오랫동안 경쟁했다.16) 그보다 겨우 몇 달 앞선 2006년 10월 구글은 유튜브를 인수했는데 당시 파이낸셜타임스는 우려 섞인 전망을 내놓았다.17)
AI 비서와 거기에 결합된 오디오 콘텐츠가 앞으로 어떤 변화를 겪게 될지 세밀화를 보여줄 수 있는 사람은 없다. 다만 지금 확실한 것은 아이폰을 만든 애플도 유튜브를 인수한 구글도 아이폰을 따라잡는 전략을 썼던 삼성도 모두 AI 비서 서비스에 경쟁적으로 투자를 하고 있다는 사실이다. (끝)
1) TV도 안심할 상황이 아니다. 뉴스를 이용할 때 1순위로 이용하는 미디어가 무엇인지 묻는 질문에서 TV라고 응답한 사람은 3.7%에 불과했다. 스마트폰은 56.4%로 과반을 차지했다.
류정호·김위근 “모바일 이용률 82.3%... 모바일 전성시대”, <신문과 방송> 2018년 1월호, pp.35
2) 국내에서 2012년부터 팟캐스트를 시작한 ‘팟빵’의 경우, 채널은 10,000개에 달하고 하루 사용자는 300,000명, 월 재생수는 5천 만 건에 달한다. (팟빵 자체조사, 2017년 기준)
3) “팟캐스트(Podcast)에 대하여 알고 싶은 두세 가지 것들”, 한국리서치 컨슈머리포트
4) 최근 마이크로소프트와 아마존은 두 AI 비서의 전략적인 제휴를 선언했다.
중앙일보,“MS·아마존 AI비서들 손잡았다, 구글·애플 견제하려고”, 2018.8.
https://news.joins.com/article/22891800
5) IT동아,“오디오 콘텐츠 전성시대, 국내 팟캐스트 앱 동향은?” 2018.4.
6) 최지혜·이선희,‘음성인식 AI 비서 시장의 현황과 시사점’, <정보통신방송정책>, 2017. 5.
7) 영 단어 ‘intent’는 의지, 의향(intention), 의사 등의 의미이지만 AI 비서에서는 특정 콘텐츠를 불러내는 ‘열쇠 말’ 같은 뜻으로 쓰인다.
8) RSS(Rich Site Summary)는 뉴스나 블로그 사이트에서 주로 사용하는 콘텐츠 표현 방식으로 팟캐스트와 같은 미디어 배포 용도로도 사용된다. 쉽게 말해 특정 인터넷 공간에 음성 콘텐츠(mp3 형식의 음성 파일)를 올려놓으면 사업자가 자동으로 그 콘텐츠를 읽어 가져갈 수 있게 하는 방식.
9) ‘팟빵’이나 ‘오디오클립’ 등의 플랫폼에서 구독자를 늘리는 노력 또한 병행되어야 한다. 예를 들어 ‘시선집중’, ‘김현정의 뉴스쇼’, ‘뉴스 공장’ 등 프로그램의 이름이 사용자들에게 충분히 인식되면 자연스럽게 ‘열쇠 말’을 선점하는 효과를 얻을 수 있기 때문이다. 이런 측면에서 최근 SBS는 홈페이지 등을 통해 자사의 오디오 콘텐츠를 확산시키는 데 많은 노력을 기울이고 있다.
10) 글씨(text)로 되어 있는 뉴스를 기계음으로 읽어주는 프로그램.
11) TTS엔진을 자체적으로 보유하고 있지 않더라도 아마존웹서비스(AWS) 음성합성 서비스 '아마존 폴리(Amazon Polly)' 등을 유료로 이용할 수 있다.
12) 기본적인 TTS엔진이 만들어진 뒤에는 특정인의 언어습관을 모사하는 ‘목소리’를 얼마든지 만들어낼 수 있다. 업계에 따르면 카카오는 음성 합성 기술을 적용해 헤이지니, 허팝 등 키즈 분야 크리에이터의 목소리로 공룡, 동물 등을 설명하는 카카오미니 콘텐츠를 준비하고 있는 것으로 확인됐다.
http://news.bizwatch.co.kr/article/mobile/2018/06/21/0033
13) 전자신문, ‘팟캐스트 광고시대 열린다’ 2016.12.
http://www.etnews.com/20161228000129
14) 블로터, ‘네이버 오디오클립, 유료 오디오북 서비스 시작’ 2018.8.
https://www.bloter.net/archives/316254
15) 스마트미디어렙(smartmediarep.)은 2014년 6월 MBC와 SBS가 주축이 되어 온라인 동영상 플랫폼의 공세에 공동 대응하자는 취지로 만든 회사다. 포털 등 온라인에서 유통되는 동영상 클립의 광고를 제작하고 판매하는 역할을 담당하고 있다.
16) 발매 당시 3G 기술이 이미 본격적으로 보급되기 시작한 시점이었는데 아이폰은 오히려 2G 통신 모듈을 탑재해, '인터넷 브라우징'이 되는 폰으로서는 아쉽다는 평이 많았을 정도다.
https://en.wikipedia.org/wiki/IPhone_(1st_generation)
17) 한겨레, ‘구글, 유튜브 16억5천만달러에 인수’ 2006.10
http://www.hani.co.kr/arti/international/globaleconomy/163105.html