AI Agent: LLM이 ‘일하는 도구’가 되는 방법

Planning, Tool Calling, MCP,...

by 뭅즤

최근 AI를 둘러싼 이야기에서 ‘에이전트’라는 단어가 유독 자주 등장한다. 회의록을 요약하고, 관련 문서를 찾아 붙이고, 슬랙에 공유한 뒤, 필요하면 Jira 티켓까지 만들어주는 AI—요즘 사람들이 떠올리는 장면이 대체로 이런 모습이다.


얼핏 보면 완전히 새로운 기술이 등장한 것처럼 느껴지지만, 사실 이 흐름은 지난번 이야기했던 변화와 자연스럽게 이어진다. AI가 ‘말하는 도구’에서 ‘일하는 도구’로 바뀌는 과정에서, 그 작동 방식이 더 구체적인 형태를 갖게 된 것이 바로 에이전트이다.


여기서 말하는 AI 에이전트란, LLM이 목표를 기준으로 계획을 세우고 도구를 호출해 작업을 끝까지 수행하는 구조이다.


1. LLM이 똑똑해지면, 왜 ‘에이전트’가 필요해지는가

예전의 LLM은 질문에 답하는 데 집중했다. 주어진 문맥 안에서 가장 그럴듯한 문장을 만들어내는 것이 역할의 전부였다. 하지만 현실 문제는 “그럴듯한 문장”으로 끝나지 않는다. 검색을 해야 하고, 사내 문서를 뒤져야 하고, 계산을 해야 하고, 시스템에 요청을 보내야 한다. 즉 현실의 정답은 대개 모델 바깥에 있다.


그래서 최근 LLM 연구와 제품들은 하나의 방향으로 수렴하기 시작했다. LLM이 모든 답을 직접 만들어내려 하지 말고, 필요할 때는 도구를 쓰게 하자는 생각이다. 이 흐름을 설명할 때 자주 등장하는 개념이 바로 ‘Tool Calling’(혹은 Function Calling)이다.


OpenAI의 공식 문서에서 소개하듯, 최근 LLM은 검색 결과를 추측하거나 계산 결과를 만들어내는 대신, 실제 검색·계산·데이터 조회 도구를 호출하도록 설계되고 있다. (OpenAI, Function Calling & Tool Use)


즉 LLM은 실행을 직접 담당하지 않고, 지금 이 상황에서 어떤 도구를 써야 하는지를 판단하는 역할을 맡는다. 이 흐름은 OpenAI만의 이야기가 아니다. Google Gemini도 function calling을 별도 문서로 안내하고 있고, (Google Gemini API Function calling) Anthropic은 아예 “에이전트는 결국 도구 품질에 의해 성능이 결정된다”는 관점에서, 도구 설계와 평가 방법까지 깊게 다룬다. (Anthropic, Writing effective tools for agents — with agents)


핵심 메시지는 간단하다. LLM은 ‘만능 계산기’가 아니라 ‘판단자+지휘자’가 되어가고 있다.


2. “오케스트레이터”라는 말이 괜히 나온 것이 아니다

에이전트의 본질은 “혼자서 다 하는 AI”가 아니라, 여러 시스템을 연결하고 조율하는 흐름 제어 장치에 가깝다. Microsoft의 Semantic Kernel도 같은 맥락에서 에이전트를 다루며, 플러그인(도구), 플래너(계획), 페르소나(규칙/역할)를 결합해 “일하는 구조”를 만든다.


여기서 중요한 전환이 하나 더 있다. 도구가 늘어나면 늘어날수록, 단순히 “한 번 호출”로는 일이 끝나지 않는다. 도구 호출 → 결과 확인 → 다음 도구 선택 → 중간 실패 처리 → 재시도… 같은 흐름이 필요해진다. 이 지점에서 LLM은 더 이상 “답변 생성기”가 아니라 워크플로우 운영자가 된다.


3. 2025년의 에이전트 트렌드: 도구 그 자체보다 “연결 표준”이 뜬다

2024년 말, Anthropic은 MCP(Model Context Protocol)를 “데이터/도구/워크플로우를 LLM 앱에 안전하게 연결하는 개방형 표준”으로 소개했다. (Anthropic, Introducing the Model Context Protocol)


이것이 왜 중요하냐면, 에이전트가 강해질수록 문제가 “모델 성능”보다 연결의 복잡도로 이동하기 때문이다. 툴이 5개일 때는 수작업으로 붙이면 된다. 그런데 50개, 500개가 되면 각각을 따로 오케스트레이션하는 순간 유지보수가 불가능해진다.


그리고 2025년 12월에는 이 흐름이 더 명확해졌다. Linux Foundation 산하에 Agentic AI Foundation(AAIF)이 만들어지면서, MCP와 함께 OpenAI의 AGENTS.md 같은 표준이 ‘오픈 거버넌스’로 묶이기 시작했다. 업계가 사실상 “에이전트의 시대엔 표준이 인프라이다”라고 선언한 셈이다. (OpenAI, Agentic AI Foundation, Linux Foundation, Agentic AI Foundation formation)


AGENTS.md는 요약하면 “코딩 에이전트용 README”이다. 저장소마다 에이전트가 지켜야 할 규칙과 맥락을 표준 위치에 적어두는 방식이다. 결국 에이전트가 실무로 들어올수록, 사람과 비슷하게 ‘업무 규정’과 ‘작업 컨텍스트’를 문서로 주입하는 쪽으로 진화한다. (AGENTS.md 포맷 소개, OpenAI 개발자 가이드)


4. 그래서 에이전트가 ‘자동화’와 다른 지점은 무엇인가

자동화는 미리 정해진 규칙을 반복하는 시스템이다. 반면 에이전트는 목표를 기준으로 상황에 따라 계획을 바꾸고, 도구를 바꾸고, 실패를 처리한다. 즉 “규칙 실행”이 아니라 “업무 수행”에 가까워진다.


다만 여기엔 대가가 따른다. 에이전트는 실수를 하고, 특히 요즘 많이 이야기되는 실패 유형 중 하나가 tool hallucination이다. 잘못된 도구를 고르거나, 도구를 틀린 방식으로 쓰는 문제다. 2024년 말 연구에서는 이를 명시적으로 분류하고, 신뢰도 정렬(reliability alignment) 같은 접근으로 줄이려는 시도가 제안된다. (Reducing Tool Hallucination via Reliability Alignment)


이 때문에 2025년엔 “에이전트를 어떻게 만들까”만큼이나 “에이전트를 어떻게 평가할까”가 큰 주제가 된다. 2025년의 에이전트 평가 서베이는 계획, 도구 사용, 메모리, 안전성 같은 능력을 어떤 벤치마크로 측정하는지 체계적으로 정리한다. (Survey on Evaluation of LLM-based Agents (2025))


실무에서도 비슷한 흐름이 보인다. 예를 들어 소프트웨어 개발 에이전트는 SWE-bench(및 OpenAI가 공개한 SWE-bench Verified 같은 검증 세트)로 더 현실적인 평가를 하려는 움직임이 강화되었다. (OpenAI, Introducing SWE-bench Verified)


웹 브라우저 기반 업무 자동화도 마찬가지다. 기업 업무 환경(ServiceNow 등)을 다루는 WorkArena(2024) 같은 벤치마크가 등장했고, (WorkArena (2024))실제 웹 환경에서 장기 과제를 수행하는 WebArena도 2024 ICLR 기준으로 “현실형 환경”을 강화했다.(WebArena (ICLR 2024 버전/업데이트 포함))


5. 결론: AI의 현실 세계로의 확장

AI 에이전트의 등장은 새로운 모델이 갑자기 튀어나와서 생긴 사건이 아니다. LLM을 현실 세계의 문제에 적용하려다 보니, 판단은 LLM이 하고 실행은 도구/시스템이 하도록 역할을 분리하는 쪽이 더 안전하고 확장 가능했기 때문에 선택된 구조이다.


그래서 지금의 에이전트는 사람을 완전히 대체하기보다, 사람이 일을 맡기고 결과를 검증하는 구조로 먼저 자리 잡는다. 즉 “대체”가 아니라 “분업”이다. 그리고 2025년의 트렌드는 이 분업을 더 잘 굴리기 위한 방향—도구 품질, 평가 체계, 그리고 MCP/AGENTS.md 같은 연결 표준—으로 빠르게 이동하고 있다.



참고 자료

OpenAI Function calling (Tool calling): https://platform.openai.com/docs/guides/function-calling

OpenAI: New tools for building agents (Responses API 등): https://openai.com/index/new-tools-for-building-agents/

Anthropic: Writing effective tools for agents — with agents: https://www.anthropic.com/engineering/writing-tools-for-agents

Google Gemini API Function calling: https://ai.google.dev/gemini-api/docs/function-calling

Anthropic: Introducing the Model Context Protocol: https://www.anthropic.com/news/model-context-protocol

MCP 공식 사이트: https://modelcontextprotocol.io/

OpenAI: Agentic AI Foundation: https://openai.com/index/agentic-ai-foundation/

Linux Foundation AAIF 발표: https://www.linuxfoundation.org/press/linux-foundation-announces-the-formation-of-the-agentic-ai-foundation

AGENTS.md: https://agents.md/

OpenAI 개발자 가이드(AGENTS.md): https://developers.openai.com/codex/guides/agents-md/

Survey on Evaluation of LLM-based Agents (2025): https://arxiv.org/abs/2503.16416

Reducing Tool Hallucination via Reliability Alignment (2024-12): https://arxiv.org/abs/2412.04141

OpenAI: Introducing SWE-bench Verified: https://openai.com/index/introducing-swe-bench-verified/

WorkArena (2024): https://arxiv.org/abs/2403.07718

WebArena: https://arxiv.org/html/2307.13854v4

매거진의 이전글요즘 AI는 어떻게 달라지고 있을까