멀티 에이전트를 위한 xLAM

LLM말고 이젠 LAM (Large Action Model), 세일즈포스

by Andy

Oct 11. 2024

세일즈포스의 xLAM(Large Action Models) 모델은 기존의 대형 언어 모델(LLM)이 가지는 한계를 넘어, 자율적인 에이전트 구축과 실행 가능한 명령 처리에 중점을 둔 혁신적인 기술입니다. 이는 비즈니스 프로세스 자동화의 새로운 패러다임을 제시하며, CRM(고객 관계 관리) 시스템에서 업무 처리의 효율성을 극대화하고자 하는 세일즈포스의 전략적 방향과도 일치하죠. 오늘은 세일즈포스의 xLAM 모델을 통해 얼마나 세일즈포스가 Agent 기능 구현과 AI 기반의 파이프라인 구축에 얼마나 진심인지 조금이나마 알아봤습니다.

LLM과 LAM의 차이: 이해에서 실행으로

대형 언어 모델(LLM)은 자연어를 이해하고 생성하는 데 중점을 두고 있습니다. 예를 들어, OpenAI의 GPT-4나 Anthropic의 Claude와 같은 모델들은 방대한 양의 데이터를 학습해 자연스러운 문장 생성 능력을 보여줍니다. 하지만 이들은 멀티모달이 제공된다 하더라도, 실제로는 주로 텍스트 기반의 작업에서 제한적인 역할을 합니다. 즉, 사용자의 요청을 이해하고 답변을 제공할 수 있지만, 실제 작업을 실행하는 것에는 한계가 있습니다.

LAM은 실행에 필요한 도메인 지식을 기반으로 훈련되었습니다. ( Salesforce AI Reasearch )

이에 반해, xLAM은 단순히 텍스트를 생성하는 것을 넘어, 실제 업무를 자동화하고 처리하는 기능을 제공하는데 초점을 맞췄습니다. 이 모델은 API 호출을 통해 사용자의 명령을 기반으로 실질적인 액션을 실행할 수 있습니다. 예를 들어, 한 영업 담당자가 주문을 취소하는 명령을 내릴 때, xLAM은 관련 시스템을 탐색해 주문 취소 작업을 자동으로 처리할 수 있습니다. 이 과정에서 사용자는 복잡한 과정을 직접 수행할 필요 없이, AI 에이전트가 대리로 작업을 완료하게 됩니다.

세일즈포스가 LAM에 대해 언급한 내용을 옮겨보자면 다음과 같습니다.

많은 사람들이 알고 있는 것처럼 대규모 언어 모델은 인간과 유사한 텍스트를 이해하고 생성하도록 설계되었습니다. 그들은 방대한 데이터세트에 대해 훈련을 받았으며, 실제로 광범위한 언어 관련 작업을 수행할 수 있죠. LLM은 새로운 요리법과 고급 수준의 식사를 만드는데 자세한 지침을 제공하는 셰프와 같다고 생각할 수 있습니다.

반면에 대규모 액션 모델(LAM)은 다양한 환경에서 결정을 내리고 액션(실행)을 수행하도록 설계되었습니다. 레시피를 도와줄 뿐만 아니라 요리, 잘게 썰기, 섞기, 손가락 까딱하지 않고 요리가 필요에 따라 정확하게 준비되었는지 확인하는 등의 작업을 처리하는 수셰프(마스터 셰프)를 생각해 보십시오. AI 영역에서 LAM은 함수 호출(Function Calling)을 통해 작업을 생성하도록 설계된 LLM의 특수한 하위집합입니다. LLM이 레시피를 제공한다면, LAM은 재료가 완벽하게 프렙(준비)되고, 섞이고, 요리되는 것데 대한 결과를 제공하는 것이죠.

세부 모델 소개: xLAM의 다양한 버전과 활용 사례

xLAM의 학습 파이프라인은 데이터 통합과 검증, 합성의 단계로 구성됩니다. ( arXiv / Salesforce )

세일즈포스는 다양한 비즈니스 요구를 충족하기 위해 xLAM을 여러 가지 버전으로 출시했습니다. 각 모델은 특정한 환경에서 최적의 성능을 발휘하도록 설계되었습니다.

① xLAM-1B (초소형): "Tiny Giant"라는 별명을 가진 이 모델은 10억 개의 매개변수로 구성되어 있습니다. 크기가 작아 모바일 기기에서도 구동이 가능하며, 낮은 리소스 환경에서도 우수한 성능을 발휘합니다. 특히 GPT-3.5나 Claude와 같은 더 큰 모델들을 능가하는 성능을 보여주며, 소규모 데이터 처리 및 모바일 환경에서 유용합니다.

② xLAM-7B(소형): 주로 학술 연구나 GPU 리소스가 제한된 환경에서 사용되며, 높은 성능과 리소스 효율성을 자랑하는 중간 규모 모델입니다

③ xLAM-8x7B(중형): 혼합 전문가 모델(Mixture of Experts)로, 산업 응용 프로그램에서 성능, 리소스 소비, 지연 시간 사이에서 균형을 유지할 수 있습니다

④ xLAM-8x22B(대형): 대규모 혼합 전문가 모델로, 대규모 계산 리소스를 가진 환경에서 최상의 성능을 제공합니다. 이 모델은 CRM 시스템에서 매우 복잡한 작업을 처리하는 데 적합하며, 높은 성능과 정확성을 요구하는 상황에서 사용됩니다

Agentforce는 자율적인 Agent를 구축하는 서비스입니다. (Salesforce)

이 모델들은 세일즈포스의 Agentforce 플랫폼에서 자율 에이전트로 활용될 수 있습니다. Agentforce는 기업들이 자체적인 AI 에이전트를 구축하고, 다양한 비즈니스 프로세스를 자동화할 수 있도록 지원하는 플랫폼으로, xLAM 모델의 강력한 실행 능력을 기반으로 복잡한 작업을 처리할 수 있습니다. 또한, 세일즈포스의 xLAM은 Berkeley 리더보드의 Function Calling V2 리더보드에서 GPT-4와 Claude-3를 누르고, 정상에 올라 그 기능성을 증명했습니다. (2024년 8월) 또한, APIGen 파이프라인에서 3,673개의 실행가능한 API를 활용, API 들이 데이터 무결성과 관련 기능을 정확히 실행하기 위한 3단계 검증 프로세스까지 준비했다고 합니다. (확장성 면에서도 충분히 기대할만할 듯 해요)

에이전트 기능에 대한 평가 수준을 보면 매개변수와 크기는 안중요해 보입니다. (arXiv / Salesforce)

세일즈포스의 전략적 방향과 xLAM의 역할

세일즈포스 AI 연구소의 셀비 하이네케(Shelby Heinecke)는 "LLM과 LAM의 차이점은 LAM은 함수 호출에 최적화된 파인튜닝된 LLM이기 때문에 사용자가 요청을 전달하면, "이 앱을 호출해" 또는 "이 호출을 파이썬 프로그램으로 호출해"와 같은 명령을 생성한다."고 밝혔는데요. (SiliconANGLE) 즉, LAM은 고객의 질문과 요청이 있으면 그것을 위해 취해야 할 조치를 생성한다는 것이 핵심입니다.

세일즈포스의 이런 전략 방향은 xGen-Sales 모델을 차근차근 갖춰나가도록, 한 발 한 발 앞으로 전진하고 있고 AgentForce를 개선하도록 훈련된 독점 모델로 발표된 건데요. 특히, xGen-Sales 모델은 이미 내부 테스트에서 다른 큰 모델을 앞지른 성능을 보이고 있다고 전해집니다. 더구나, xLAM-1B와 같은 초소형 모델은 스마트폰과 태블릿 같은 모바일 장치에서도 실행 가능하고, 작은 애플리케이션과 연계한 자동화된 동작도 가능할 것으로 보입니다.

에이전트를 구현하는데 있어 넘어야 할 가장 큰 산은 실행수단이자 도구(Tool)가 필요하다는 얘기를 드렸던 적이 있는데요. 그런 면에서 세일즈포스만큼, 수많은 실행 버튼(Action Button)을 가진 앱과 서비스, 엔드포인트가 많은 서비스를 찾기는 쉽지 않습니다. 또한, 이미 사무자동화 부분에서 많은 부분을 API로 전환하고, 영업과 CRM의 BPM 파이프라인 자동화도 최고 수준이죠. 즉, 안전하고 검증된 에이전트가 준비된다면 가장 빠르게 실현할 준비가 되어 있다는 겁니다.

세일즈포스 입장에서 어려움은 도구의 문제보다는 데이터인 것으로 보입니다. 이렇게 새로운 방식의 행동 지향적인 모델인 xLAM을 개발할 때의 큰 난관은 모델을 훈련하는 데이터를 수집하는 겁니다. 실제 셸비 하이네케도 데이터가 가장 큰 어려움이었다면서 "AI를 위한 Function Calling의 흐름을 정의하는 것은 매우 최신 기술의 영역이고, 이런 연구에 활용할 수 있는 데이터셋은 매우 제한적이다."라고 밝혔죠. (제 생각은 데이터세트는 고객으로부터 충분히 수집했겠지만, 데이터 수집이 어렵다고 엄살을 피우면서 숨기는 느낌이긴 합니다. - 뇌피셜)

여튼, Agent 의 시대가 온다면 1순위로 SalesForce 주식을.. 아니군요. MS 주식을 사둬야겠네요. (이미 늦었을까 싶긴 하지만)

□ 참고 자료 :

- https://www.salesforceairesearch.com/projects/xlam-large-action-models?ref=blog.salesforceairesearch.com

Salesforce AI Research

Powering the world's smartest CRM by embedding state-of-the-art deep learning technology into the Salesforce Platform.

https://einstein.ai/

- https://arxiv.org/abs/2409.03215

xLAM: A Family of Large Action Models to Empower AI Agent Systems

Autonomous agents powered by large language models (LLMs) have attracted significant research interest. However, the open-source community faces many challenges in developing specialized models for agent tasks, driven by the scarcity of high-quality agent

https://arxiv.org/abs/2409.03215v1

keyword

매거진의 이전글생체인식? GPT-4가 더 탁월하다?멀티모달 오픈소스 Aria 공개매거진의 다음글