UX 디자이너가 생각하는 인공지능과 인간의 인터랙션 그리고 미래
AI라는 키워드는 오래되었다. AI라는 단어를 들어보지도 못한 사람은 거의 없을 거라고 생각한다. 그런데, 작년부터 불이 붙기 시작한 이 키워드는 따라잡기 어려울 정도로 발전하고 진화하고 있다. 그리고 AI는 어느새, Generative AI라는 생소한 단어로 인간의 미래에 큰 변화를 불러일으키려 하고 있다. 나는 AI 전문가가 아닐뿐더러, 아직도 ChatGPT 등을 유려하게 써먹고 있다고 볼 수 없는 사람이다. 그러나, 최근의 흐름과 우리가 거쳐온 역사 그리고 내 경험을 통해서 인공지능에 대해서 이야기해보려 한다. 이 글에 명쾌한 정답은 없겠지만, 누군가에게 작은 인사이트는 줄 수 있을 거라고 생각한다.
빌 게이츠는 자신의 블로그를 통해서, 지금의 AI는 GUI(Graphic User Interface) 이후 가장 중요한 기술적 발전이라고 평했다. 그리고 앞으로 컴퓨터를 제어하는 주요 방식은 더 이상 메뉴와 대화 상자를 클릭하거나 탭하는 것이 아니라, 일반 영어로 요청을 작성하는 것이 될 것이라고 예측하였다. [원문 : Eventually your main way of controlling a computer will no longer be pointing and clicking or tapping on menus and dialogue boxes. Instead, you’ll be able to write a request in plain English] 그 시절 GUI가 등장하면서 준 임팩트를 정확히 체감할 수는 없으나, AI가 우리 삶에 큰 변화를 줄 것이라는 것은 아주 공감한다. 또한 컴퓨터를 제어하는 방식 역시 변화할 것이라는 것 역시 일견 공감하는 바이다.
GUI는 위대한 발명이자 발전이었다. 컴퓨터가 등장한 초기에는, 특정한 문법을 따르는 언어를 통해 컴퓨터에게 명령을 내리고, 결과물을 얻어냈다(이것 역시 Text Propmpt 방식이라고 할 수 있겠다). 당연히 특정 언어를 통해 컴퓨터와 인터랙션하는 방식은 접근성, 직관성 등의 면에서 상당한 허들을 가지고 있었다. 그리고 GUI가 등장한다. 더글라스 앵겔바트가 마우스를 발명한 것을 시작으로 점점 지금 우리가 익숙하게 알고 있는 그래픽의 형태로 사용자들이 인터페이스를 볼 수 있게 되었고, What You See Is What You Get (WYSIWYG / 위지위그)가 가능하게 되었다.
컴퓨터와 인간이 인터랙션 하는 방식은 여기서 그치지 않고, 모달리티의 관점에서 더 발전해 나간다. 그것은 바로 '터치'이다. 수많은 연구자들과 기업, 디자이너, 개발자들이 고민하고 합의한 GUI를 사람들이 손가락으로 직접 터치하면 조작 가능하게 된 것이다. 터치 방식이라는 모달리티가 등장하면서, 그 이후에는 터치 방식 이외의 제스쳐를 활용하는 다른 방식과 스피치 / 발화를 통해 컴퓨터와 인터랙션 하는 방식 등이 등장하였다. 지금 이 순간에도 아마 많은 기업의 디자이너들은 워치, 스마트 스피커 등에 들어갈 단일 모달리티 방식을 넘어 멀티 모달리티를 효과적으로 녹여낼 방식을 고민하고 있을 것이다. 여기까지의 이야기는 모두 사람과 컴퓨터가 인터랙션하는 방식(HCI)에 대한 것이다.
다시 초창기의 컴퓨터와 인간이 인터랙션한 것처럼 텍스트 프롬프트 방식의 시대가 도래했다. 자연어(Natural Language) 프롬프트를 기반으로 한 ChatGPT, 미드저니 등의 Generative AI가 눈에 띄게 발전하면서, 프롬프트 잘 쓰는 법에 관한 책과 강의 등이 하나둘씩 보이고 있다. 당연히 우리가 흔히 쓰는 자연어를 통해서 컴퓨터와 소통할 수 있다는 것은 정말 위대한 발전이다 (OpenAI와 마이크로소프트 그리고 Generative AI 서비스를 제공하는 기업들이 얼마나 대단한지는 따로 언급하지 않겠다). 컴퓨터 과학자인 안드레 카파시는 본인의 트위터를 통해 '새로 등장한 가장 핫한 프로그래밍 언어는 영어다'라고 말하기도 하였다. 특별한 컴퓨터 문법을 따르지 않고, 자연어, 특히 영어를 통한 인터랙션 방식은 우리의 허들을 낮출 뿐만 아니라 생산성을 엄청나게 높일 것이다. 더 나아가 인터넷과 스마트 폰이 등장한 후 그에 따른 생태계가 구축되었던 것처럼 인공지능을 기반으로 한 생태계가 만들어지고, 어마어마하게 다양한 서비스들이 쏟아져 나올 것은 누구든지 쉽게 예상할 수 있다.
그러나, 우리는 HCI의 역사를 돌아보았을 때 지금과 같은 텍스트 프롬프트 방식이 완전무결한 방식인가에 대해서는 의문을 던질 수 있다. 자연어를 기반으로 한 텍스트 프롬프트 방식은 생각보다 까다롭다. 길게 쓴다고 좋은 것이 아니고, 특별한 템플릿을 쓰는 것 역시 대안이 될 수 없다. 또한 내가 텍스트를 특정한 방식으로 기술하였을 때, 그에 따른 결과물을 예측하기가 어렵다(특히 이미지 생성 AI). 이러한 문제들에 대처하기 위해, 지금 우리가 취할 수 있는 방식은 원하는 것이 나올 때까지 계속 프롬프트를 수정하던지 아니면 나보다 더 프롬프트를 잘 쓰는 사람의 템플릿을 보던지. 크게 이 정도이다.
명령을 내리는 것과 결과물을 받는 것의 어려움은 컴퓨터와의 인터랙션에서는 큰 문제이다. 모두가 알다시피, Garbage in, Garbage out.
AI라는 거대한 생태계가 등장하는 이 시점에, 컴퓨터의 GUI와 같은 역할을 하는 건 무엇이 될까? 다시 말해, AI와 사람이 더 쉽게 인터랙션할 수 있도록 만드는 인터페이스는 무엇이 될까? 물론, 특정 가설을 가지고 빠르게 움직이는 팀들이 있겠지만, 현시점에서는 아무도 모를 것이다. 그리고 텍스트 프롬프트 방식 자체가 문제라고 생각하는 사람이 별로 없을 수도 있다. 그러나, 컴퓨터와 인간, 기업의 역사를 되짚어봤을 때, 유저들의 인풋과 아웃풋을 더 쉽게 - 효과적으로 제공하는 자의 승리였다 (구글, 유튜브 등).
분명히 AI 기술은 더욱 발전할 것이고, 마이크로소프트와 OpenAI 같은 기업들이 큰 자본을 앞세워 엄청난 생태계를 만들 것이다. 마찬가지로 지금의 AI와 인터랙션 방식이 최종 종착지는 아닐 것이다. 사람들이 AI를 더 쉽게, 잘 활용하게 하고 원하는 결과물을 얻게 만드는 것. 나는 이 지점에서 기회가 있다고 '감히' 생각한다.
항상 퍼스트 펭귄이 시장의 패권을 가져가는 것은 아니다(라임 아님). 베네딕트 에반스가 올해 발표한 [The New Gatekeepers]의 장표 일부를 첨부하면서 글을 마무리한다.
https://www.gatesnotes.com/The-Age-of-AI-Has-Begun