연재 중 알바트로스의 생성형 AI 연구소 16화

AI 에이전트의 아키텍처(1) - 최첨단 LLM

Agent by Google의 인지아키텍처

by 알바트로스

Jan 11. 2025

지난 시간에는 AI 에이전트의 정의와 이를 구현하기 위한 핵심적인 조건들에 대해 살펴보았습니다. AI는 단순히 사용자의 명령을 수행하는 매개체가 되는 소프트웨어가 아닙니다. 마치 사람처럼 목적 달성을 위해 스스로 상황을 인지하고 상호작용하며 학습을 통해 개선되는 하나의 자율적인 메커니즘이라고 할 수 있습니다.

얼마 전 구글에서 공개한 'Agent'라는 이름의 백서에서는 이러한 AI 에이전트의 아키텍처와 기술적 구성요소를 실제로 구현하기 위한 주요 아키텍처로서 인지 아키텍처(Cognitive Architecture)를 제시합니다. 마치 인간이 주변 환경과 상호작용하고 가용한 자원을 활용하여 문제를 해결하듯 동일한 방식을 모방하여 에이전트의 행동, 의사결정, 작업 실행 과정을 구조화한 아키텍처라고 할 수 있습니다.

출처 : Agent by google

백서에서는 인지 아키텍처를 구성하는 요소로 크게 모델(model) / 도구(tools) / 오케스트레이션(Orchestration) 세 가지를 제시합니다. 아직 명확한 정의와 합의가 없는 AI Agent의 기술적 요소를 잘 구현해 낸 백서라고 할 수 있는데, 각각의 요소들을 소개하며 함께 자세히 뜯어보도록 하겠습니다.

1. AI 에이전트의 두뇌 - 모델(Model)

가장 처음에 살펴볼 요소인 모델(Model)은 AI 에이전트의 두뇌와도 같은 역할을 하며 의사결정과 행동 계획에 핵심적인 역할을 합니다. 여기서 말하는 모델이란 AI에이전트에 날개를 달아준 LLM에서 살펴보았듯 방대한 양의 텍스트 데이터로 훈련된 LLM을 지칭하는 경우가 많습니다.

출처 : OpenAI

AI 에이전트가 주어진 상황을 인지하고 스스로 판단을 내리기 위해서는 추론(inference) 능력이 매우 중요한데, 이러한 조건을 충족시키기 위해서는 OpenAI의 GPT-4o나 o3 그리고 Claude-3.5-sonnet과 같이 방대한 패턴을 바탕으로 스스로 판단할 수 있는 능력을 갖춘 최첨단 LLM의 적용이 필수적입니다.

AI Agent vs LLM

그러나 LLM이 뛰어난 추론 능력이나 언어 구사 능력을 가지고 있다고 해서 단독으로 AI 에이전트가 할 수 있는 태스크를 수행할 수 있는 것은 아닙니다. 구글의 백서에서는 기존의 LLM과 AI을 비교분석하며 설명하고 있습니다. LLM을 탑재한 AI 에이전트는 여러 가지 툴과 로직들을 활용해 훈련 데이터(training data)에 없는 정보를 외부 시스템이나 툴을 통해 얻을 수 있으며 이를 바탕으로 항상 최신의 상태로 유지될 수 있다는 점이 기존 LLM과 가장 큰 특징이라고 할 수 있습니다.

2. AI 에이전트의 두뇌가 되기 위한 조건들

그렇다면 AI 에이전트에 적용되는 LLM은 어떤 조건을 갖추어야 할까요? 모든 LLM이 AI 에이전트의 두뇌가 될 수 있는 것은 아닙니다. 두뇌는 인간의 지적 능력과 퍼포먼스를 크게 좌우합니다. AI 에이전트의 성능 역시 마찬가지로 LLM에 크게 의존할 수밖에 없습니다.

우선 한 가지 데스크에만 한정되지 않고 다양한 작업을 수행할 수 있는 다목적 언어 모델 즉 범용 모델(General Purpose Model)이어야만 합니다. 또한 텍스트뿐 아니라 이미지, 음성 등 다양한 데이터를 이해할 수 있는 멀티모달(Multimodality)이 적용되어야 합니다. 마지막으로 필수 사항은 아니지만 법률, 의학, 금융 등 전문지식을 다루는 AI 에이전트의 경우는 특정 작업에 최적화된 데이터로 추가 학습된 미세 조정 모델(Fine-Tuned Model)이 성능을 향상해 줄 수 있습니다.

뿐만 아니라 에이전트가 효과적으로 작동하기 위해서는 논리적 추론 및 계획을 가능하게 하는 프레임워크를 지원해야 할 필요가 있습니다. 예를 들어, o1 등 과학 및 수학에 특화된 LLM의 훈련 기법으로 자주 등장하는 기법인 생각의 사슬(Chain of Thought, CoT) 방식은 복잡한 문제를 해결하기 위해 중간 단계 추론을 수행하며, 리액트(ReAct)는 추론과 행동을 결합하여 에이전트가 보다 주도면밀하게 결정을 내릴 수 있게 해주는 프레임워크입니다.

Figure 1: Chain-of-thought prompting enables large language models to tackle complex arithmetic, com

이번 시간에는 AI 에이전트의 두뇌 역할을 하는 LLM에 대해 자세히 배워보았습니다. LLM은 분명 AI 에이전트의 주인공이라고 할 수 있습니다. 그러나 LLM 자체는 주어진 데이터를 바탕으로 태스크를 수행하는 에이전트 전체 시스템의 일부일 뿐입니다. 외부 데이터를 실시간으로 활용하거나 행동을 실행하려면 추가적인 구성 요소가 필요합니다. 다음 시간에는 이러한 작업들을 가능하게 해주는 도구(Tools) 및 오케스트레이션 계층에 대해 배워봅시다.

keyword

Brunch Book 토요일 연재

연재 알바트로스의 생성형 AI 연구소

전체 목차 보기

알바트로스 IT 분야 크리에이터 직업 에세이스트

문과 출신으로 생성형 AI 엔지니어로 일하고 있습니다. 챗GPT와 같은 AI가 보다 더 사람의 말을 잘 알아듣고 생성할 수 있도록 연구하는 NLP(자연어처리) 분야에서 일합니다.

이전 15화AI 에이전트란 도대체 무엇인가?AI 에이전트의 아키텍처(2) - 도구(Tools)다음 17화