카카오미니 뉴스 도메인 기획자의 고민
짧은 기간 동안 내가 지켜본 인공지능 기술은 크게 세 가지로 분류할 수 있었다. 첫째, 인간의 사고를 흉내 내는 기술이다. 메커니즘 상으로는 인간의 사고방식과 다르게 때문에 '흉내 낸다'는 표현은 적절하지 않을 수 있지만, 겉보기로는 인간이 사고하면서 하는 일을 그럴듯하게(때로는 더 훌륭하게) 수행한다는 느낌을 준다. 둘째, 인간의 인지를 흉내 내는 기술이다. 시청각 데이터를 인간이 이해할 수 있는 형태로 처리해주고, 그 데이터를 활용해 다양한 작업을 직접 수행하기도 한다. 셋째, 인간의 소통 방식을 흉내 내는 기술이다. 언어를 활용한 '말(Spoken words)'에서 출발해 '글(Written words)'로 확장된 대화 형식이 인간이 오래 유지하고 있는 소통 방식이다. 키보드, 터치 인터페이스는 현대 기술의 산물이지 근원적인 방식이라 보기 어렵다. 최근의 기술은 인간과 기계가 인간의 근원적 소통 방식인 '말과 글로 대화'할 수 있도록 발전하고 있다.
그런 의미에서 'AI스피커'는 조금 위험한 단어다. '인공지능'이라는 말은 자칫 인간의 사고를 흉내 내는 기술이 전부라는 인상을 줄 수 있다. 그래서 '인공지능 스피커'라고 했을 때, 사람의 지능 수준을 가진 스피커를 기대하는 건 당연한 결과일지 모른다. 그러나 개인적으로는 AI스피커 기술의 핵심은 세 번째 분류로 제시한 '인간의 소통 방식을 흉내 내는 기술'이라고 생각한다. 휴대폰에서 손흥민 관련 뉴스를 찾기 위해서는 '포털 앱 실행 → 검색창에 '손흥민' 입력 후 검색 버튼 터치 → 결과 뉴스 리스트 확인 후 원하는 기사 영역 터치'로 이어지는 몇 번의 과정을 거쳐야 한다. 다른 사람에게 손흥민 관련 뉴스를 물어볼 때는 어떨까? "너 손흥민 소식 아는 거 있어?"라고 말로 물어보거나, 카톡에 입력하면 끝이다. AI스피커 역시 사람에게 물어보듯이 "손흥민 관련 뉴스 알려줘"라고 말로 요청하고, 바로 결과를 전달받는다. 즉, 인간이 가장 친숙한 '말'로서 기계에게 의도(intent)를 전달할 수 있도록 인터페이스를 혁신했다는 점이 그 본질에 가깝다고 볼 수 있다.
인터페이스의 혁신이 기기의 사용성을 담보하지는 않는다. 몇 가지 조건이 필요할 것 같은데, 사용자의 생활 범주에 이미 침투해 있을수록 유리하고, 자연스럽게 음성으로 입력하는 상황이 연출되고 그로 인한 사용 가치의 상승폭이 커야 한다. 휴대폰은 터치 인터페이스에 너무 익숙해져 있고, 이미 많은 기능을 수행하고 있기 때문에 후자의 조건과 상충된다. 선구자들은 결국 '스피커'를 하나의 해답으로 제시했고, 이제는 업계 진출의 통과의례가 되어 버렸다. 그러다 보니 입력뿐만 아니라 출력까지 음성으로만 이루어지는 Voice Only 인터페이스가 가장 대중적인 AI 프로덕트 요소가 됐다.(물론 빠르게 변하고 있긴 하다.)
Voice Only 인터페이스는 단순해 보이지만 기획자에게는 상당히 도전적인 과제를 던진다. 사용자에게는 라디오와 유사한 아날로그 느낌을 주지만, 뒷단은 최신 기술이 집약돼 복잡한 구조로 이루어져 있다. 이 두 가지를 잘 연결하기 위해 공부하고 고민해야 하는 부분이 많다. 특히 음성으로만 정보를 전달할 때는 여러 제약 조건이 생긴다. 따라서 뉴스처럼 정보 전달이 핵심인 도메인을 Voice Only 인터페이스 상에 기획하기 위해서는 생각보다 고민해야 될 것이 많아진다. 카카오미니 뉴스 도메인을 기획할 때 고민했었던(지금도 고민하는) 내용을 소개하려고 한다. 참고로 기본적인 뉴스 구조가 정립된 2017년 당시에는 나보다 다른 분들이 훨씬 많이 고민하셨다.
시각으로 전달되는 텍스트, 영상 뉴스에서는 정보 우선순위에 따라 화면을 구성하는 요소에 차이를 둘 수 있다. 제목, 부제, 핵심 자막이 대표적으로 많이 부각하는 요소다. 이들은 뉴스를 접할 때 최초로 시선이 머무르는 곳이기 때문에 뉴스에서 전달하는 정보의 이해 및 해석에 상당한 영향을 준다. 뿐만 아니라 시각 인터페이스의 특성상 반복적으로 노출되기까지 한다. 텍스트 뉴스의 제목은 시선과 스크롤 이동으로 언제든지 확인할 수 있고, 영상 뉴스에서도 화면 어딘가에 자막으로 뉴스 제목은 남아 있다. 일종의 앵커링(anchoring) 효과로서 사용자가 정보를 이해하는 데 도움이 된다.
Voice Only 인터페이스에서는 앵커링 효과를 이용하기 어렵다. 제목이나 부제를 먼저 언급하더라도 휘발되어 버린다. 사용자가 놓치거나 잊어버리면 뉴스를 처음부터 다시 재생하지 않는 이상 확인할 방법이 없다. 그렇다고 중간중간에 이러한 정보를 반복해서 넣자니 흐름을 방해하게 된다. 그래서 카카오미니에서는 제목, 부제를 과감히 제외하고 뉴스 본문만 잘 제공하는 것으로 결론 내린 상태다. 작년에 제목을 넣은 버전으로 내부 테스트는 해봤다. 정보 이해에 도움이 되는 경우도 있었으나, 오히려 방해하는 경우가 많아 바꾸지 않았다. 뉴스 제목은 짧은 문장에 많은 정보를 담기 때문에 음성으로만 들었을 때 어색한 경우가 많았다. 또 음성만으로 제목과 본문의 구분점을 정확히 전달하는 것도 까다로운 일이다. 물론 이게 정답이라고는 생각하지 않는다. 우선순위에 따라 정보의 층위를 나누고 적절히 강약 조절을 하는 편이 정보 이해에 훨씬 도움된다고 본다. 다만 현재의 제목을 그대로 읽어주는 것은 효과적이 않다는 판단이며, Voice Only 인터페이스에 최적화된 방법은 여전히 발견해야 할 과제로 보고 있다.
시각 인터페이스에서 뉴스 소비는 보통 홈/섹션 화면에 나열된 뉴스 리스트 또는 클러스터를 확인하고, 원하는 개별 기사를 선택하는 과정으로 진행된다. Voice Only 인터페이스에서는 이런 방식을 쓰기 어렵다. 몇 개의 뉴스 제목을 나열하고 번호를 선택하라는 시나리오는 생각만 해도 구리다. 결국 이미 준비된 뉴스 리스트가 있고, 개별 기사를 순차적으로 제공할 수밖에 없다. TV 방송 뉴스와 유사한 방식이다.
하지만 사용자 관점에서는 답답한 구석이 있다. 연합뉴스에서 제공하는 카카오미니의 주요 뉴스는 전체가 5분 내외 분량인데, 어떤 뉴스가 나올지 모르는 상황에서 끝까지 다 듣기를 바라는 것은 너무나 공급자의 마인드라는 생각이 들었다. 최소한 다음에 나올 뉴스 꼭지들이 어떤 내용을 담고 있는지는 먼저 제공할 필요가 있었다. 그래서 카카오미니에서는 개별 뉴스를 순차 재생하기 전에 각 꼭지의 내용을 요약정리한 브리핑을 먼저 재생한다. 주요 뉴스 전체를 먼저 조망할 수 있게 하여 사용자의 이해 및 뉴스 선택을 돕고, 개별 뉴스를 들을 때 흐름을 잃지 않게 하기를 기대하고 있다.
카카오미니 주요 뉴스의 구성 예시
[03월 13일 06시 01] 뉴스 브리핑 https://news.v.daum.net/v/20200313055343066
[03월 13일 06시 02] 유럽증시, 팬데믹 선언·미국 입국금지 속 최악 급락 https://news.v.daum.net/v/20200313055351068
[03월 13일 06시 03] 이탈리아 코로나19 사망자 1천명 넘어서..확진 1만5천113명 https://news.v.daum.net/v/20200313055400070
[03월 13일 06시 04] 구로 콜센터 관련 수도권 확진자 최소 105명..접촉자 추적 중 https://news.v.daum.net/v/20200313055407073
[03월 13일 06시 05] 미스터트롯, 마지막 생방송 대형사고.."우승자 다음주 발표" https://news.v.daum.net/v/20200313055415074
[03월 13일 06시 06] 오후부터 찬 공기 내려와 쌀쌀..제주도 일부 빗방울 https://news.v.daum.net/v/20200313055422075
Voice Only 인터페이스에서의 뉴스 서비스 (下)에서 계속...