AI시대에 우리는 어떤 어플리케이션을 사용할까?
AI 모델의 성능은 끊임없이 발전하고 있지만, 여전히 유저가 제품을 사용하는 경험은 바뀌지 않는 것 같다. 주변에 다른 스타트업을 다니시는 분들이나 PM분들과 얘기를 나누어봐도 특별하게 지금의 일하는 방식이나 유저 경험은 바뀌지 않는다 정도의 얘기를 들었다. 왜 이런 현상이 발생할까? 앞으로 AI 기술이 더 발전한다면 제품을 만드는 방식은 어떻게 바뀔까?
정리해보면 아직 사용자의 관성을 넘을만한 기술 성숙도가 도달하지 않았고, 비용 최적화가 이루어지지 않아서라고 볼 수 있다.
1. 기술의 성숙도와 사용자 경험
현재의 대형 언어 모델(LLM)은 일반적인 대화에는 능숙하지만, 모바일 UX 최적화 수준의 사용자 경험을 제공하기에는 아직 미흡하다. 초기 배달의 민족(배민) 사례를 보면, 처음에는 전화 주문이 더 편리했다. 당시 배민은 단순 전단지 사진만 제공했고 결제 기능도 없었다. 그러나 결제 기능이 추가되고, 더 다양한 정보를 제공하면서 점차 전화 주문을 대체하게 되었다. 이처럼 AI 기술이 지금보다 더 발전해서, 터치 UX를 넘어설 정도의 경험을 제공하는 순간 앱들도 새로운 형식을 채택하게 될 것이다.
어느 정도의 수준이 되어야 할까? 그 순간을 정의해보면 Agent(애플의 Siri 같은 개념)가어플리케이션에 명령을 명확하게 전달할 수 있는 수준이 도달했을 때이지 않을까 싶다. 배민에서 자주 시키는 가게의 김치찌개를 주문할 때, 현재는 클릭 몇 번과 결제가 필요하지만, "자주 먹는 김치찌개 집에서 늘 먹던 걸로 시켜줘"라는 한 마디로 주문하는 시대가 올 수 있다. 시장을 선점한 앱을 이용하는 유저가 다른 앱을 사용하게 만들려면 그 경험이 10배는 좋아야한다는 말이 있듯이 적어도 이 정도의 경험이 제공되지 않는 이상 유저는 여전히 지금의 앱 사용에 만족하지 않을까 생각이 든다.
2. 비용 문제
API를 사용하는 것도 비용이 많이 들고, 직접 모델을 만드는 것은 더 비싸다. 그러나 기술은 항상 그래왔듯이, 가능성을 발견하면 점점 저렴하게 컴퓨팅 비용을 사용하는 방식으로 바뀌어 갈 것이다. 현재는 LLM을 가동하는 데 드는 비용이 너무 비싸고 비싼 비용 대비 유저에게 줄 수 있는 가치가 상대적으로 낮다고 판단되기 때문에 사용하지 않는 것이다.
이전에는 트랜스포머가 아닌 딥러닝 기반 모델들이 OCR, 엔터티 추출, 감성 분석, 추천, 개인화 등 특정 작업을 대체하는 수준으로 사용되었는데, 이는 약간의 GPU로도 가능했기 때문에 ROI가 나왔다. 하지만 현재의 LLM은 Hallucination 문제 등의 여러 실제 적용에 있어서 발생할 수 있는 리스크 대비 감당해야하는 비용이 너무 크다.
이러한 비용 문제로 인해서 현재 LLM을 활용해서 제품을 만드는 스타트업들을 살펴보면 법률, 금융, 의료와 같은 전문 도메인에서 업무를 대체하는 스타트업들이 많이 나오고 있다. CS 분야에서도 LLM을 활용해 문의량 증가에 따른 인건비 절감을 목표로 여러 시도들이 이루어지고 있다. 선진국의 높은 인건비를 고려하면 충분히 ROI가 나오는 영역일 수 있다.
https://www.youtube.com/watch?v=bex85otwn1U
-> 곁다리로 여기에 대표님이 나와서 하시는 말씀이 인상깊다. 네이버, 구글이 아무리 뛰어난 LLM을 만들더라도 결국에는 특정 데이터/도메인 기반에서 요구하는 문제를 해결하기 위해서는 api 형태로 특화 LLM에 요청을 넘길 거라고.. 이를 대비해서 법률 특화 LLM을 만들고 있다는 내용. 이러한 배경을 잠깐 정리해보자면 다음과 같다. 결국 거대모델은 무수히 많은 데이터를 학습시켜서 "언어"라는 맥락을 이해시킨 것이지 "지식"을 학습시킨 것은 아니다. 따라서 법률, 의료, 금융같은 도메인에서 인간을 대체하는 역할을 기대하기에는 부족하고 이를 검증하는 절차가 LLM에서는 배제되어 있다. 누군가에게 그럴듯한 말을 웅변해달라고 하는 것과 법정에서 변론을 하는 것은 다르기 때문에. 결론적으로 이런 비용적인 측면과 앞으로 빅테크 기반의 거대 모델이 나오더라도 이런 특수 LLM은 해자가 존재하기 때문에 당분간은 이런 특화 LLM을 만드는 스타트업은 기회가 있지 않을까 하는 생각이 든다.
위에서 말한 이 두가지 문제는 종국에는 해결될 문제라고 생각한다. 그렇다면 앞서 말한 문제들이 해결된다는 전제하에 미래의 제품을 만드는 방식은 어떻게 바뀔까?
1. [UX] Interface의 변화
컴퓨팅 시대에 있어서 가장 큰 혁신은 무엇이었을까? 바로 GUI라는 개념이다. 컴퓨터가 처음 등장할 당시에는 아래와 같이 직접 정해진 명령어를 쳐야만 동작했었다.
그렇기 때문에 전문적인 지식을 가진 사람들만 컴퓨터를 사용할 수 있었다. 하지만 그 이후 아이콘과 버튼 클릭으로 컴퓨터를 동작시킬 수 있는 인터페이스가 나오면서 더 많은 사람들이 컴퓨터에 쉽게 접근할 수 있게 되었다.
비슷한 맥락으로 스마트폰 시대에서는 마우스, 키보드와 같은 입력장치가 없어도 손가락 하나만으로 더 편하게 기계를 활용할 수 있게 되었고 이제 전세계의 사람들이 모바일을 통해 컴퓨팅 자원을 활용할 수 있게 되었다. 이처럼 컴퓨팅 방식의 변화는 필연적으로 인터페이스의 변화를 가져왔다.
AI 시대의 인터페이스는 어떻게 바뀔까? 아마도 최근 OpenAI의 GPT-4O 시연현상을 보면 자연어가 주를 이룰 것 같고, 비전프로의 사례를 보면 직접 말을 하기 어려운 상황에서는 터치보다 확장된 손짓이 가능하지 않을까 생각이 든다. 키오스크를 사용하는 것을 어려워하시는 시니어 분들이 계신데 이런 자연어가 잘 작동하게 되면, 더 많은 사람들이 디지털 접근성이 높아지게 될 것이다.
그럼 자연어를 통해 어떻게 동작할까? 이전의 방식과 비교해 보았다. 먼저 기본적으로 모바일은 디스플레이 화면을 통해서 동작한다. 조그마한 화면 안에서 유저는 터치, 스크롤, 스와이프 등과 같이 디스플레이와 접촉하는 행위를 통해서 원하는 동작을 수행해야한다. 그러다보니 우리가 전달할 수 있는 정보는 한정적이고 UX는 이 조그마한 화면 안에서 최대한 유저를 쉽게 이해하도록 만들기 위해 단순하고 간결한 UX를 지향해왔다. 어플리케이션 입장에서도 유저가 입력한 "텍스트", "버튼 터치"와 같은 한정된 정보로 유저의 의도를 파악해서 그들이 원하는 정보를 내놓아야하기 때문에 어떻게 하면 이를 쉽게 유도할 수 있을까를 고민해왔다.(모바일 시대에는 그래서 퍼널 지표들을 분석하고 이를 어떻게 낮출 수 있을지를 관점으로 UX를 개편해왔다.)
모바일이 등장하면서 컴퓨터 시대의 웹디자인 시절 정립된 개념들이 바뀌었듯이 LLM 기반의 새로운 인터페이스가 등장하면 모바일 시대에 해왔던 고민들과 레슨들은 제로베이스로 돌아갈 수도 있다.
유저에게 우리가 원하는대로 행동하도록 설계할 필요가 없다. 유저는 편하게 자기가 원하는 것을 말로 표현하면 된다. 그럼 LLM Agent가 기존에 만들어진 application이 task를 수행하는데 필요한 정보를 이해하기 쉬운 형태로 변형시켜서 정보를 전달하는 것이다.
비행기 티켓 예매방식을 예시로 들어보자. 우리가 비행기 티켓 예매를 하려면 지금은 어떻게 해야할까? 스카이스캐너에 들어가서 수없이 많은 티켓 중에서 내가 원하는 조건을 클릭 & 입력을 통해서 전달하고 선택하고 결제하는 과정이 필요하다. 이 과정에서 유저는 수없이 많은 클릭과 고민하는 시간을 가진다.
LLM 에이전트가 등장하면 어떨까? 유저는 그냥 조건만 말하면 된다. 이제 Agent가 application과 소통하면서 원하는 조건의 티켓을 결제정보를 가지고 알아서 결제까지 완료한다.
앞으로 인터페이스의 핵심은 LLM Agent에게 사용자의 요구사항을 전달하는 방식과, Agent가 한 결과물을 어떻게 일목요연하게 정리해서 보여줄지가 중요해지지 않을까 생각한다.
추가로 이렇게 LLM Agent가 사용자의 요구사항을 듣고 통역해서 어플리케이션에 요청하는 과정으로 인터페이스가 바뀌게 되면 기존에는 쇼핑하려면 쿠팡, 배달시킬려면 배민, 필요한 목적에 따라 각기 다른 어플을 사용했었다면, 저런 어플리케이션은 LLM Agent가 접근하는 형태로 바뀌게 되지 않을까 생각하고 이런 Agent단을 먹는 기업이 모바일 시대의 애플과 같은 기업이 생길 수도 있다.
2. [Solution] 해결할 수 있는 문제의 확장
일반적으로 우리가 만든 어플리케이션은 프로그래밍 언어로 구성되어 있다. 이 어플리케이션을 만들기 위해서는 원하는 결과를 얻기 위한 방법을 A부터 Z까지 하나하나 다 프로그래밍해야 한다. 이를 소프트웨어 1.0이라고 한다.
그러다가 머신러닝이라는 새로운 소프트웨어 2.0이 등장했다. 사람이 알고리즘을 짜는 것이 아니라 데이터를 통해서 기계가 스스로 알고리즘을 학습하도록 만드는 것이다.(물고기를 잡는 영상을 계속 보여주면서 스스로 터득하게 알려주는 느낌) 즉 사람이 하나하나 다 방법을 알려줄 필요 없이 데이터와 원하는 결과만 알려주어서 기계가 스스로 파악하게 만들어주는 것이다. 이를 통해 사람이 알고리즘을 직접 짤 수 없는 문제들조차 소프트웨어로 해결할 수 있게 되었다.
LLM이 발전해서 자연어를 통해 요청할 수 있게 되면 어떻게 될까?
철학자 비트겐슈타인은 "언어의 한계는 세계의 한계다."라고 얘기했다. 우리가 언어로 표현할 수 있는 범위가 세상의 범위라고 볼 수 있고 이는 우리가 해결할 수 있는 문제의 범위라고도 볼 수 있다. 프로그래밍으로 직접 해결할 수 있는 문제의 범위는 아래와 같이 한정적이지만 자연어를 통해 우리가 모든 것을 모델에게 전달할 수 있게 된다면 소프트웨어를 통해서 해결할 수 있는 문제는 무한히 늘어날 것이다.
아래는 figure ai라는 로봇 스타트업의 시연 영상의 일부이다. 로봇 개발은 특히나 software 1.0으로 해결하기 어려운 문제인데, 우리가 원하는 task(사과 들기)를 수행하기 위해서 로봇 관절 하나하나를 프로그래밍해야하는데 이는 불가능하기 때문이다. 이렇게 어려운 문제를 OpenAI의 Foundation model을 적용시켜 학습시키니 단기간 내에 문제를 해결할 수 있었다.
모바일 시장이 포화되면서 사실 우리가 모바일 기술로 해결할 수 있는 문제는 거의 다 해결하고 95점에서 100점을 올리는 싸움 정도를 하고 있는 것 같다. 하지만 우리가 표현할 수 있는 한계가 넓어짐에 따라서 우리가 해결할 수 있는 문제와 어플리케이션은 무궁무진하게 늘어날 것 같다.
3. [Engineering] 개발방식의 변화
software 3.0(자연어 기반으로 서로 명령을 주고받는 방식)에서 개발자는 어떻게 일하게 될까? 모바일, 웹 시대에 오면서 개발자들이 주로 했던 작업은 원하는 데이터를 받거나 DB에서 가져와서 이를 유저가 원하는 형태로 서빙하고 그려주는 api 작업이었다.(클라우드의 발전 덕택이기도 하다.)
이제는 유저의 의도대로 LLM이 동작하도록 만드는 작업에 많은 엔지니어링 리소스를 사용할 것으로 보인다.
유저로부터 프롬프트를 받아서 LLM에게 프롬프트와 데이터를 어떻게 잘 전달할지부터, LLM으로부터 받은 결과물을 실제 서비스로 구현하는 작업으로 나눠볼 수 있다.
맛집을 추천해주는 시나리오를 구현한다면 아마 이렇게 되지 않을까 생각한다.
실제 이런 제품을 프로덕트로 만들고 있는 현업의 이야기는 여기에서 볼 수 있다. 개발적인 이야기도 꽤 있지만 그래도 많은 부분을 배울 수 있다.
https://www.youtube.com/live/980oyIufuVQ?si=F5LEaD8l0qHFtBMp
1. 문제를 정의하는 역량
- 위에서 말한 것처럼 소프트웨어를 통해서 해결할 수 있는 문제의 범위가 매우 커졌다. 예를 들면 모바일 시대에 다른 업계와 달리 의료 업계에서 혁신이 일어나지는 않았다. 이에 대해서 규제의 문제도 있지만 해결할 수 있는 영역의 문제도 있다. 결국 AI에 대한 이해를 기반으로 그동안 해결할 수 없었지만 해결가능한 문제들을 잘 찾는 역량이 중요하지 않을까 생각한다.
2. 빠른 Iteration 역량
- AI는 사실 똑같은 input에 대해서 항상 똑같은 답을 내놓지 않는다. 그리고 그 원리에 대해서 Black-box처럼 100% 조작할 수도 없다. 즉, 귀납적으로 다양하게 시도해보고 잘 동작하는지 반복 개선해 가는 역량이 필요할 것 같다.
3. 검증 역량
- 모바일 시대에서는 디자인대로 잘 구현했다면 그 결과가 잘 나오는지 QA를 하면 이후에는 별도의 검증 과정이 없었지만, 앞으로의 구현에 있어서는 원하는 의도대로 model에 전달이 되었는지, 의도대로 모델이 동작하는지 잘 검증하는 역할이 중요해보인다.