brunch

매거진 AI

You can make anything
by writing

C.S.Lewis

AI시대에 맞는 서비스 개발

[카카오 개발자 콘퍼런스] 발표: 이석영 / 글: 정소영

그동안 시리즈로 정리드렸던 if kakao 2018의 마지막 이야기입니다. 9월 콘퍼런스 이후에 카카오 정책산업 연구 브런치에서는 콘퍼런스의 일부 강연을 정리해 전달드렸습니다. 콘퍼런스 현장에서 카카오 담당자들이 발표한 내용은 콘퍼런스 취재를 위해 선발한 대학(원)생 기자단이 취재한 내용을 토대로 전달드립니다. 


콘퍼런스 강연을 지상 중계하는 기획의 마지막은 카카오i와 카카오미니 그리고 AI에 대한 이야기로 맺음하겠습니다.



if kakao 2018 대학(원)생 기자단의 콘퍼런스 취재 글


01. 지식그래프 : 카카오미니와 검색 적용 소개 (발표: 남기훈 / 글: 김동현)

02. 눈으로 듣는 음악 추천 시스템 (발표: 최규민 / 글: 김태훈)

03. 이미지로 이미지 검색하기 (발표: 이주영 / 글: 이가람)

04. 딥러닝을 활용한 뉴스 메타 태깅 (발표: 김기도 / 글: 김규형)

05. 딥러닝을 이용한 실시간 인코딩 효율 최적화 (발표: 여욱형 / 글: 정소영)

06. 카카오 봇 플랫폼 소개 (발표: 황지수 / 글: 이형남)

07. 카카오가 가지고 있는 음성처리 기술 (발표: 노재근 / 글: 이형남)

08. 딥러닝을 이용한 얼굴 인식 (발표: 신종주 / 글: 김동현)

09. TOROS N2 (발표: 김성진 / 글: 김태훈)

10. 텐서플로로 OCR 개발해보기: 문제점과 문제점과 문제점 (발표: 모종훈·오형석 / 글: 이가람)

11. S2Graph와 GraphQL (발표: 윤도영 / 글: 김규형)

12. AI시대에 맞는 서비스 개발(발표: 이석영 / 글: 정소영)




들어가며


이 세션은 카카오에서 AI서비스 상용화 업무를 맡고 있는 이석영(Zodiac.Lee)님의 발표로 진행되었다. 주요 내용은 카카오i와 카카오미니를 개발하면서 AI를 통해 할 수 있는 일들이 무엇인지, 그리고 이 시대에 적합한 서비스 개발이란 무엇인지에 대해 해왔던 고민들이다. 아마 콘퍼런스 전체 세션 중 코드가 단 한 줄도 나오지 않은 유일한 세션이었을 것으로 생각된다.



AI시대에 주목하는 3가지 측면


NUI(Natural User Interface, 내추럴 사용자 인터페이스), Movable(휴대 가능성), Intelligence(지능)를 바탕으로 이야기가 진행되었다. 먼저 지능적인 측면에서 이야기해 보자면 이미 AI가 사람보다 굉장히 잘하는 분야가 있고, 못 하는 분야가 있다. 휴대 가능성은 이제 컴퓨터를 쓸 때, 키보드와 마우스가 더 이상 필요 없다는 것을 의미한다. NUI는 사람이 태어나면서부터 자연스럽게 터득하는 소통 방식, 대화나 사물 인식 능력으로 컴퓨터와 소통하게 된다. 이 세 가지 요소가 잘 결합된 종합적인 제품들이 출시되고 있다. 자세히 살펴보자.


AI시대의 지능 측면에서 가장 인상적이었던 것은 알파고(AlphaGo)다. 다들 아시다시피 알파고는 이세돌 9단을 이겼다. 이런 똑똑한 컴퓨터를 대화로 쓸 수 있도록 한 장치가 바로 인공지능 스피커다. 현재 개발자들은 기계와 인간의 자연스러운 상호작용을 보여주는 NUI에 굉장히 집중하고 있다. 이는 새로운 서비스라고 하기보다 기존의 서비스를 보다 새롭고 자연스럽게 사용할 수 있는 방법이고, 국내 주요 IT기업들은 현재 인공지능 스피커 제품을 빠르게 출시하고 있다.


AI와 관련된 기술적인 진보들은 이미 사회에 굉장히 큰 영향을 미치고 있다. NUI의 측면에서 봤을 때 AI스피커 디바이스는 AI시대를 경험하는 좋은 방법 중 하나다. HCI(Human-Computer Interaction, 인간-컴퓨터 상호작용)라고 불리는 학문에서는 컴퓨터 인터페이스의 발전 단계가 명령창(command line)을 거쳐서 GUI(Graphic User Interface, 그래픽 사용자 인터페이스)로 이어져 왔고, 결국은 NUI로 이어질 것이라고 예상한다. 지금 우리는 GUI에서 NUI로 전환되는 시기에 살고 있다.


NUI가 가지는 의미는 뭘까? 과거를 돌아보면 GUI는 컴퓨터 대중화에 굉장히 큰 영향을 미쳤다. 인상적인 결과 2가지는 1984년도에 나온 매킨토시와 2007년도에 나온 아이폰이다. 둘 다 GUI 기반의 디바이스(device)이고, 아이폰의 경우 ‘동작(gesture)’이라는 NUI 중 하나인 터치 작동방식(touch interface)이 적용되었다. 이 두 가지 실사례가 제시된 이후 굉장히 많은 변화가 있었다. 과거의 컴퓨터는 전문적으로 훈련을 받은 사람만 쓸 수 있었고, 가정에서 쉽게 쓸 수 있는 장치가 아니었다. 하지만 1984년 매킨토시 이후에 많은 사람들이 쉽게 쓸 수 있는 장치로 자리매김했다. 거의 30년이 지났지만 아직도 그래픽 기반의 유저 인터페이스를 쓰고 있다. 아이폰 출시 이전에도 스마트폰이 있었지만, 주로 키보드를 통해서 기계에 명령하던 방식을 ‘터치’라는 동작으로 명령 방식을 바꾸면서 현재 거의 모든 스마트폰은 터치 인터페이스 방식을 채용하고 있다. 이처럼 한 번 큰 흐름이 생기고 나면, 그 흐름이 계속 지속되는 경향이 있다.


그런데 GUI에는 2가지 대표적인 단점이 있다. 첫 번째는 여러 단계를 거쳐서 명령을 해야 한다는 것이다. 스마트폰의 경우 터치를 여러 번 해야 한다. 두 번째는 눈과 손을 써야 하기 때문에 멀티태스킹(multi-tasking)이 불가하다는 점이다. 운전 중이거나 걸어 다니면서 스마트폰을 쓸 수는 없다. 우리는 걸어 다니면서 스마트폰을 하는 것이 위험하다는 것을 알지만, 스마트폰은 삶의 많은 부분을 처리해주기 때문에 쉽게 놓을 수가 없다. 그래서 지금까지 군림해오던 GUI는 발전 한계가 명확하다.



인공지능 스피커의 출현


4년 전, 아마존의 ‘에코(Echo)’라는 인공지능 스피커가 등장했다. 인공지능 스피커는 음성 인터페이스를 쓰는데, 음성 인터페이스는 2가지 특징이 있다. 첫 번째는 실행의 단계를 굉장히 빠르게 압축할 수 있다는 것이다. 스마트폰은 아무리 단순한 기능이라도 굉장히 많은 단계를 거쳐야 하지만, 인공지능 스피커는 한 번의 명령만으로도 ‘바로 실행’이 가능하다. 스마트폰을 사용하기 위해서는 제일 먼저 집 어딘가에 던져 놓은 스마트폰을 찾아야 하지만 스피커는 찾을 필요가 없다. 음성은 어디서나 들리기 때문이다. 스피커는 화면이 없기 때문에 음성으로 모든 명령을 실행시켜 주어야 한다.


미국에서는 현재 전체 가구의 20% 이상이 인공지능 스피커를 사용 중이고 작년에만 2,700만 대 이상 팔렸다. 공급의 속도가 빠르고 다른 디바이스에 비해서 결코 느리지 않다. 카카오미니의 경우 거의 6개월 만에 국내에 20만 대가 공급되었다. 출시 전에는 많은 숫자라고 생각했지만 초기 예상보다 빨리 소진되었다. 현재 카카오미니의 주간 총사용량은 5,400만 분에 달한다. 카카오미니는 음악을 재생할 때 많이 쓰이고 있다. 주요 음악 애플리케이션의 주간 총사용량을 나열해보면 1위 사업자인 멜론이 3억 분 정도이고, 카카오미니의 주간 총사용량인 5,400만 분은 3위 사업자와 비슷한 수준이다. 하지만 카카오미니보다 앱이 훨씬 많이 깔려있는 것을 감안하면 음악을 들을 때 카카오미니를 아주 많이 쓰고 있다고 볼 수 있다. 이는 음악을 재생할 때 스마트폰이 아닌 인공지능 스피커로 대다수의 사람들이 편안하게 사용하고 있다는 점을 증명하는 것이라고 생각한다.



음성 인식 시대의 서비스는 철저히 기능 단위로


인공지능 스피커의 가장 큰 장점 중 하나는 바로 Zero depth UI(User Interface)다. 명령을 할 때 여러 단계를 거치지 않는다는 것이다. 지금은 스마트폰에서 여러 단계로 실행하는 것이 익숙해져 있기 때문에 불편하지 않다고 생각할 수 있지만, ‘즉시 실행’을 한 번 경험하고 나면 스마트폰으로 다시 돌아가기 어렵다. 결국 중요한 것은 서비스를 기능 단위로 구성해야 한다는 것이다. 한 번의 명령어로 사용자의 명령을 수행할 수 있는 완결성이 중요하다.


이 서비스가 주로 사용되는 장소는 ‘집’이다. 음성 인터페이스는 결국 집에서 많이 쓰인다. 아래 [그림 1]은 카카오미니의 시간대별 사용량을 나타낸 그래프인데, 주중에는 아침 시간의 사용량이 압도적으로 높다. 보통 출근 시간, 등교 준비 시간은 굉장히 바쁘게 보내는데, 사용량이 많다는 것은 알람 이후에 뉴스, 날씨 등의 쓰임이 많다고 볼 수 있다. 향후에는 편안함을 추구하는 공간에서 더 많이 사용될 것이라 예상한다.


[ 그림 1 ] 카카오미니의 시간대별 사용패턴


또 다른 공간은 바로 ‘자동차’이다. 자동차에서 음성을 쓰고자 하는 사람들의 열망이 높다. 카카오톡 보내기, 카카오내비 등에 쓰임이 많고, 곧 현대자동차와 제휴하여 카카오 인공지능 스피커를 탑재한 자동차가 출시될 예정이다.


스마트폰을 조작하는 핵심 단위는 앱이다. 10년이 넘는 모바일 시대를 지나왔기 때문에 우리는 앱에 굉장히 익숙하다. 조금 더 강조를 하자면 머릿속에서 ‘앱’이라는 존재 자체를 지워버려야 할 정도다. 사용자가 느끼기엔 명령어 하나이지만, ‘카톡을 보내줘’와 같은 명령을 인공지능 스피커에서 실행하기 위해서는 사람이 직접 동작하듯이 먼저 카톡을 열고, 친구 목록을 확인하고, 카카오톡 내용을 보낸다. 현재 서비스의 본질은 서버에 있는 API(Application Programming Interface)들을 코드별로 조작하는 것이다. ‘앱을 열다’라는 것은 그것을 전체적으로 실행하는 것이다. 인공지능 스피커는 본질에 기초한 기능 중심의 간결한 동작을 실행하는 점이 다르다.


자주 쓰이는 핵심 기능부터 인공지능 스피커로 시도를 해봐야 한다. 카카오미니를 쓰면서 느낀 점은, 음악이라는 것에 TPO(Time, Place, Occasion, 시간, 장소, 상황을 의미) 추천이 필요하다는 것이었다. 노래를 감상할 때는 환경 변수를 고려한 즉시성이 반영되는데, 그에 따른 재생 목록의 조절이 필요하다. 카카오미니는 이런 동작들을 굉장히 간편하게 제어할 수 있다. 앱으로 제공할 것이냐, NUI로 제공할 것이냐의 문제에서 사실 이 두 가지는 공존의 관계라고 볼 수 있다. 아직 NUI로 추천 기능을 제공하기에는 갈 길이 멀다. 하지만 앱과 NUI의 서비스의 본질적 가치는 같다. 


좋은 개발을 하기 위해서는 일단 많이 써봐야 한다. 자연어 학습도 굉장히 중요하다. 적당한 명령어로 인공지능 스피커를 쓸 수 있는 구조를 만들어야 한다. 카카오에는 오픈 빌더(open builder)와 같은 서비스가 있고, 여기서 그런 구조를 만드는 일을 하고 있다. 앞부분의 복잡한 처리는 다 해준다. 개발자들(developers)도 있다. 12월에 베타 오픈을 준비하고 있다. NUI 개발을 해볼 수 있다.


이 발표를 통해서 자연스럽게 NUI 서비스로 바꾸는 것에 대한 지식을 많이 얻어갔으면 한다.



발표 이후의 현장 Q&A


Q. NUI에서 약점이 제삼자에 대한 피드백이라고 한다. 카카오미니로 카카오톡을 보낼 때, 밥 먹자고 보냈는데, 메시지가 의도대로 보내진 건지 어떻게 확인을 할 수 있나?

지금으로서는 완전하게 피드백을 해주기는 어렵다. 써보신 분들은 알겠지만, “누구누구에게 ‘밥 먹었어?’라고 보낼까요”하고 다시 읽어준다. 조금 긴 텍스트를 듣는 것까지 문제가 없다. 저의 경우 차 안에 카카오미니를 설치해 놓았는데, 손을 쓸 수 없는 환경에서 불편할 정도는 아니다. 타사의 스피커도 다시 읽어주는 정도로 피드백을 한다. 하지만 가장 중요한 것은 기술을 발전시켜서 오류가 없도록 하는 것이다. 여러 가지로 고민을 하고 있다.


Q. 화자를 식별하는 기술은 어떻게 진행하고 있는지?

음성 관련 기술 세션에서 자세한 내용을 들을 수 있을 것 같다. 현재는 ‘보이스 프로필’이라는 기능이 있다. 생체 인증 기술 중 지문, 얼굴, 홍채 인식의 경우는 굉장히 오랜 시간 동안 발전이 되었고, 지금 거의 100%의 정확도로 식별을 할 수 있지만, 음성 인식의 경우 아직 갈 길이 멀다. 집 안에서 가족끼리 목소리가 비슷한 경우가 많아서 이를 완전하게 식별하는 것은 어려운 문제다. 하지만 기술 발전이 되고 있기 때문에 앞으로 더 큰 개선이 있을 것으로 기대한다.


Q. 카카오미니 서비스를 플랫폼 사업처럼 운영하는 것은 어떠한가? 굳이 스마트 스피커라는 새로운 디바이스보다 스마트폰이 다 있으니까 플랫폼처럼 심어서 바로 이용할 수는 없나?

고민은 다 하고 있다. 스마트폰에도 카카오i를 쓸 수 있도록 하는 것도 생각 중이다. 사업 제휴의 문제는 스마트폰이냐, 아니면 다른 어떤 디바이스냐의 상관없이 다양한 형태로 될 수 있다. 아직 구체적으로 말씀드리기는 어렵다.


Q. UX(User experience, 사용자 경험) 관련 일을 하고 있는데, 2가지 질문이 있다. 첫 번째는 구글 어시스턴트를 제외한 인공지능 스피커는 호출을 해서, 웨이크업을 하고, 확인이 된 다음에 명령을 진행한다. 구글 어시스턴트는 웨이크업과 명령어를 붙여서 이야기를 했을 때 자동적으로 그것을 인식하고 실행을 한다. 굉장히 다른 경험이었다. 어떤 방식이 궁극적으로 더 좋은 경험을 줄 것인지 생각하시는지 궁금하다. 두 번째 질문은 사용자에 대해서 인식을 잘못했을 때나 사용자의 짓궂은 질문을 어떤 식으로 해결하시는지 궁금하다.

첫 번째 질문은 저희도 고민했던 부분이고, 사실은 기술적으로 다 되는데, 동작의 신뢰성 측면에서 확인을 하는 것이다. 당연히 사용자가 자연스럽게 이야기를 했을 때 인식하는 것이 필요하다. 구글 어시스턴트는 동작의 신뢰성이 높다. 두 번째 질문도 상당히 오래된 숙제인데, 인공지능 스피커의 경우 여러 사람이 사용하는 쉐어 디바이스이고, 화자에 맞춰서 콘텐츠 추천, 답변 톤 등을 다 나누어서 해주는 것이 필요하다. 하지만 그런 서비스를 제공하는 것이 쉽진 않다. 해결을 위해 노력하고 있다.


Q. 카카오미니가 추구하는 방향이 단순히 UI의 전환인 것인지, UX까지인지? 

사용자 경험의 변화를 이끌어내기 위해서 초점을 맞추고 있다. 음성이라는 것은 어떻게 보면 중간 단계일 수도 있다. 방 안과 거실에 각각 카카오미니가 있을 때, 방 안에서 방 안의 카카오미니가 내가 침대에서 나오는 동작을 인식하고, 알람을 멈춰주고, 내가 거실로 나오면서 거실에 있는 카카오미니가 자연스럽게 날씨를 알려주는 것은 바람직하다. UX 변화라는 건 사실 궁극적으로 추구해야 할 방향이다. 편하게 이용할 수 있는 경험을 주어야 한다. 컴퓨터의 발전이 사람의 삶에서 잘 이용되고, 생활 속에 잘 스며들 수 있게 하는 것이 우리가 추구하는 바다. 


본문에 삽입된 슬라이드 자료는 'if kakao 2018' 개발자 콘퍼런스 발표자료에서 인용하였습니다.
(출처: https://if.kakao.com)


콘퍼런스 발표 | 이석영 zodiac.lee@kakaocorp.com


글 | 정소영 songr64@naver.com 

Swarm Intelligence를 이용한 Global Optimization Algorithm을 개발했고, 현재는 협업 필터링(Collaborative Filtering)을 바탕으로 추천 시스템에서 Similarity Measure를 개발하는 연구를 진행 중입니다. 또 기계학습을 이용해 편미분 방정식을 푸는 연구를 진행하고 있습니다. 대학원 과정 동안 응용수학을 전공했고, 학부 때 조선공학을 전공했기 때문에 공학 기반의 수학 문제 해결에 관심이 많습니다.


 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari