brunch

You can make anything
by writing

C.S.Lewis

by 알바트로스 Dec 14. 2024

AI 에이전트에 날개를 달아준 LLM

AI 에이전트는 왜 또다시 주목받고 있을까?

2025년 생성형 AI 업계를 강타할 트렌드로 AI 에이전트가 주목받고 있습니다. 빌 게이츠 마이크로소프트(MS) 창업자는 AI 에이전트로 인해 앞으로 5년 내로 컴퓨터를 사용하는 방식이 완전히 바뀔 것이라고 말합니다. 빌 게이츠는 앞으로 사람들이 복잡한 컴퓨터 조작법을 몰라도 말만 하면 컴퓨터로 거의 모든 복잡한 작업을 처리할 수 있을 것이라고 말하죠.


영화 아이언맨에 등장하는 Jarvis 역시 AI 에이전트의 미래상을 잘 보여줍니다. 어마무시한 능력을 가지고 있을 것 같은 Jarvis의 이름은 사실 그렇게 거창한 뜻을 가지고 있지는 않습니다. Jarvis는 그냥 좀 많이 똑똑한 시스템(Just A Rather Very Intelligent System)의 약자라고 하는데 재미있지 않나요? Jarvis는 토니스탁이 가지고 있는 수없이 많은 AI들 중 하나인데, 토니의 말리부 저택 관리나 비서 역할과 해킹과 아이언맨의 전투를 보조하기도 하는 일종의 AI 에이전트입니다.


Jarvis (출처 : 아이언맨)


아무튼 요즘 다시 주목받고 있는 AI 에이전트는 매우 미래지향적이고 최첨단 기술의 집약체인 것처럼 보입니다. 그런데 사실 AI 에이전트는 그다지 새로운 개념도 특별한 개념도 아닙니다. 개인적으로는 Jarvis라는 이름 즉 '그냥 좀 많이 똑똑한 시스템'이 AI 에이전트의 본질을 잘 표현해 냈다고 생각합니다. 


무엇보다 AI 에이전트는 이 브런치북에서 메인 주제로 다루고 있는 LLM과 프롬프트 엔지니어링, 검색증강생성(RAG) 그리고 벡터 DB와 같은 여러 컴포넌트들과 매우 밀접하게 연관되어 있습니다. 이번 시간부터는 AI 에이전트의 개념과 기술들에 대해 파헤쳐 보도록 하겠습니다. 



AI에이전트가 다시 주목받고 있는 이유


AI 에이전트란 간단히 말해 사용자가 생성형 AI 모델과 상호작용 하고 원하는 태스크를 수행하는 작업에 있어서 있어서 중간다리 역할을 하는 일종의 매개체가 되는 소프트웨어라고 정의 내릴 수 있습니다. 기술적인 관점에서 AI 에이전트는 그다지 새로운 개념이 아닙니다. 네트워크나 운영체제 속에 존재하면서 특정한 목적 달성을 위해 사용자를 대신해서 작업을 수행하는 자율적 프로세스라는 개념은 컴퓨터 과학 분야에 수 십 년 전부터 존재해 왔기 때문입니다. 


2010년대 인공지능 개인 비서를 표방했던 애플의 siri나 아마존의 Alexa와 같은 스마트 어시스턴트 역시 AI 에이전트의 일종이라고 할 수 있습니다. 그런데 이런 기존의 AI 에이전트들은 사람들의 기대에 전혀 부응하지 못했습니다. 스마트 어시스턴트들은 그 이름과는 다르게 사람의 말귀를 잘 알아듣지도 못하고 스스로 척척 업무를 수행하지도 못하며 우리 일상을 송두리째 바꾸어 놓는 혁신과는 매우 거리가 먼 부족한 모습만 보여줬습니다. 


살짝 모자란(?) 2021년대 AI 에이전트들


그런데 AI 에이전트는 왜 이제 와서 또다시 주목받고 있는 것일까요? 답은 LLM의 발전에 있습니다. 생성형 AI 기술의 눈부신 발전과 함께 모든 것이 달라진 것입니다. AI 에이전트의 핵심이자 ‘두뇌’에 해당하는 LLM은 이제 '자동화'와 '지능적 의사결정'이 가능해졌습니다.


AI 에이전트의 두뇌와도 같은 LLM이 천문학적인 양의 매개변수(parameter)를 바탕으로 텍스트와 이미지 등 다양한 데이터를 사전학습(pre-training) 하는 과정을 통해 방대한 양의 데이터 속에서 스스로 최적의 패턴을 추론해 내는 능력을 갖추게 되었기 때문입니다. 한 발 나아가 사용자 데이터에 기반한 분석을 통해 사용자가 무엇을 원하는지 정확히 파악하고, 그에 맞는 행동을 선택하는 커스터마이즈 기능까지 가능해졌지요.


멀티모달 LM (출처 : https://magazine.sebastianraschka.com/)


멀티모달(Multimodal) AI 기술은 이러한 AI 에이전트의 가능성을 더욱 확장시키는 중요한 요소입니다. 멀티모달 AI는 텍스트, 이미지, 음성 등 다양한 형식의 데이터를 동시에 처리하고 이해할 수 있는 능력을 가진 생성형 AI 모델을 뜻합니다. 예를 들어, 생성형 AI 기반의 AI 에이전트는 사용자가 텍스트로 명령을 내리면 그에 맞는 이미지를 생성하거나, 음성을 통해 받은 정보를 텍스트로 변환하여 적절한 답변을 제공하는 등 다양한 방식으로 상호작용할 수 있습니다. 이러한 멀티모달 AI의 특성 덕분에 AI 에이전트를 더 직관적이고, 풍부한 상호작용이 가능하게 해주었습니다. 다음시간 부터는 구체적으로 AI 에이전트의 컴포넌트들을 뜯어보는 시간을 가지도록 하겠습니다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari