카카오미니 총괄 조디악
사람들이 생각하는 인공지능은 어떤 이미지일까요? 우리가 실생활에서 처음 접한 충격적인 인공지능의 모습은 대부분 바둑을 두던 알파고였을 겁니다. 하지만 알파고는 그저 결과물을 모니터에 점 하나로 찍어주는 게 전부였습니다. 이세돌 9단 맞은 편에서 바둑을 두던 아자 황 박사를 보고 ‘알파고가 참 사람처럼 생겼다’는 우스갯소리가 떠오릅니다. 우리가 생각하는 인공지능의 모습은 바로 대화에 있기 때문이지요.
인공지능 스피커인 ‘카카오 미니’를 개발한 조디악 총괄은 '컴퓨터와 대화하는 방법’을 주제로 이야기를 시작했습니다. 불과 2~3년 사이에 인공지능 기술은 우리 삶 가까이에서도 활용하고 있습니다. 대표적인 것이 아마도 인공지능 스피커일 겁니다.
카카오 미니를 비롯해 아마존 에코, 구글 홈 등 셀 수 없이 많은 스피커들이 인공지능 어시스턴트를 끌어안고 세상에 나오고 있습니다. 그런데 이 인공지능 스피커의 어디가 ‘지능’일까요? 사실 한 두가지가 아니지만 우리가 겪는 직접적인 특징은 바로 ‘말’일 겁니다. 조디악의 이야기는 바로 컴퓨터가 ‘말을 알아듣는다’는 것의 의미를 돌아봤습니다.
“음성은 인공지능 시대에서 컴퓨터와 대화하는 *인터페이스의 한 축으로서 의미를 갖고 있습니다. 컴퓨터가 처음 등장하던 시절 앨런 튜링은 이미 컴퓨터가 사람처럼 움직일 수 있을 것이라고 생각했습니다. 컴퓨터의 목표가 바로 인공지능에 있었던 것이지요.”
하지만 현실은 꽤 멀리 있었습니다. 컴퓨터는 사람의 말은 커녕 지금처럼 단어조차도 이해하지 못했습니다. 최초의 컴퓨터로 불리는 ‘에니악(ENIAC)’은 전쟁에서 포탄의 궤도를 계산하는 큼직한 계산기였습니다. 애초 컴퓨터라는 말도 ‘연산하다’라는 의미의 ‘컴퓨트(Compute)’에서 시작했습니다.
컴퓨터가 할 수 있는 일이 늘어나면서 어떻게 하면 더 쉽게 사람들의 메시지를 컴퓨터에게 입력할 수 있을지 고민이 시작됐습니다. 학문적인 의미로서의 ‘휴먼 컴퓨터 인터렉션(HCI, Human Computer Interaction)’가 연구되기 시작한 겁니다.
이때 등장한 것이 바로 마우스입니다. ‘터닝 포인트’라고 할 만큼 마우스는 컴퓨터 환경을 크게 바꾸어 놓았습니다. 마우스는 2차원적인 컴퓨터 화면에서 원하는 곳을 정확히 짚어내는 도구입니다. 이 작은 화살표는 컴퓨터의 역사를 바꾸었고, 지금까지도 우리가 가장 익숙하게 쓰는 입력장치로서의 역할을 해 왔습니다. 윈도우나 맥OS의 그래픽 인터페이스를 낳기도 했습니다.
“휴먼 컴퓨터 인터페이스의 두 번째 터닝포인트는 터치였습니다. 물리적인 주변 기기가 없이도 입력할 수 있다는 장점과 멀티터치, 재스처 입력 등 기존 입력의 한계를 깨는 것이 바로 이 터치 스크린입니다.”
아이폰의 등장과 함께 ‘만지는 컴퓨터’에 대한 활용이 본격적으로 시작됐습니다. 이전에도 터치스크린이 없지는 않았지만 아이폰이 다른 평가를 받을 수 있었던 것은 기존 입력장치를 흉내내는 것이 아니라 아예 터치를 고민한 화면 구성과 운영체제 환경을 갖추었다는 점입니다. 두 살짜리 아기도 아이폰을 들고 자기가 원하는 것을 찾아낸다는 이야기가 바로 이 만지는 인터페이스에 대해 많은 부분을 설명했습니다.
조디악이 세 번째 터닝포인트, 즉 지금 인공지능 시대의 핵심 기술로 꼽은 것은 바로 음성 인터페이스입니다. 대표적인, 그리고 가장 성공한 사례는 아무래도 아마존의 음성인식 서비스 ‘알렉사’와 이 플랫폼이 들어간 스피커 ‘에코’겠지요. 터닝포인트를 둔 조디악의 해석이 그 자체로 새로운 것은 아니지만 흥미로운 포인트가 하나 있습니다. 바로 ‘입력장치를 배제한 첫 개인용 컴퓨터’라는 부분입니다. 키보드도 없고 화면도 없습니다. 마이크와 스피커를 사이에 두고 말로 대화를 하는 것이 컴퓨팅인 기기입니다.
“아마존은 음성으로 모든 서비스를 경험할 수 있도록 했습니다. 사용자 인터페이스(UI, User Interface)’도 없고, 메뉴나 버튼을 골라서 들어가는 단계(Depth UI)도 없습니다. 말하는 것이 곧바로 결과로 나타나는 것이 음성 인터페이스의 가장 큰 강점입니다."
말은 가장 자연스러운 인터페이스입니다. 본능적이고, 직관적인 방법이기 때문이지요. 방법을 배울 필요도 없습니다. 누구나 기기에 손 하나 대지 않고 말로 기기를 제어할 수 있습니다. 다른 일을 하면서도 방해받지 않고 또 다른 제어를 할 수 있는 멀티태스킹 인터페이스이기도 합니다.
단 한 마디 말로 무엇인가를 할 수 있다는 것 자체가
컴퓨팅 환경을 진화하게 하는 것입니다.
"스마트 스피커는 인공지능 시대의 경험을 미리 해볼 수 있는 장치입니다. 인터페이스라는 것 자체가 없다고 생각이 될 정도의 시대로 진화해 갈 겁니다.”
생각해보면 컴퓨터 환경에서 ‘인터페이스’라는 말의 의미는 의사 소통의 접점으로 해석됩니다. 사람은 컴퓨터에게 의사를 전달하기 위해 키보드와 마우스, 터치스크린을 두드렸고, 컴퓨터는 다시 사람에게 그 결과를 전달하기 위해 모니터와 프린터 등을 이용했습니다.
인공지능 기술은 아직 사람과 격차가 있습니다. 하지만 진화는 서서히, 그리고 분명히 다가오고 있습니다. 이를 피부로 느낄 수 있는 가장 확실한 방법이 바로 음성 인터페이스입니다.
*인터페이스 : 좁게는 컴퓨터 및 소프트웨어 조작 방식을 말하며 넓게는 서로 다른 두 물체 사이에서 상호간 대화하는 방법을 의미합니다. (출처 : daum백과)
글 : IT컬럼리스트 최호섭 (work.hs.choi@gmail.com)
본명은 이석영. 인공지능 스피커 ‘카카오미니’를 탄생시킨 카카오미니 총괄. AI와 인간의 대화가 더 편하고 자연스러워질 수 있는 방법을 고민하고 있다.
카카오스쿨 AI학기 목차
Intro
- 안녕! 카카오스쿨
- 인공지능과 함께 사는 방법, 사람다움
1주차. 사회 영역
- 인공지능 시대의 창의성 / 김영하 소설가
- AI 시대의 직업, 그리고 교육 / 라이언
2주차. 말하기 듣기 영역
- AI 시대, 언어를 알면 인간이 보인다 / 조승연 작가
- AI 시대에 컴퓨터와 대화하는 방법 / 조디악
3주차. 인간 생활 영역
- AI와 인간의 연결 / 김경일 교수
- AI와 생활의 연결 / 클로드
4주차. 미래 영역
- 영화속의 AI, 공존과 대결 / 김태훈
- AI로 할 수 있는 것들, 그리고 가능해질 것들 / 커티스
Outro
- 우리는 어떤 인공지능과 살아갈까
- 카카오스쿨 비긴즈