brunch

You can make anything
by writing

C.S.Lewis

by 최재철 Sep 19. 2024

LLM에서 LAM으로: 대규모 액션 모델의 등장

출처 : https://www.linkedin.com/pulse/llm-vs-lam-%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D1%8B%D0%B5-%D0%

대규모 언어 모델(LLM)을 기반으로 하는 자율 에이전트는 최근 연구에서 중요한 분야로 떠오르고 있습니다. LLM 기반 에이전트는 컴퓨터가 스스로 작업을 처리하고, 정보를 검색하며, 사용자와 상호작용하는 시스템을 말합니다. 여기서 RAG, 에이전트 개념과 더불어 최근에는 LAM(Large Action Model) 이라는 새로운 개념이 등장했습니다.

텍스트와 응답을 생성하는 데 뛰어난 LLM과 달리 LAM은 각 작업에 대한 명확한 지침이 필요 없이 전체 워크플로를 사전에 관리하여 한 단계 더 나아갑니다. 원하는 것을 알고 있을 뿐만 아니라 요구 사항을 예상하고 프로세스를 자동화하며 사용자(User) 대신 정보에 입각한 의사 결정을 내립니다. LAM 이라는 이름중간에 "Action" 이 존재하는 이유가 되겠습니다. 

LAM은 로봇 공학, 자율 주행차, 게임 AI와 같은 분야에서 뿌리를 두고 있으며, 맥락을 이해하고 실시간으로 의사 결정을 내리는 것에 포커스를 두고 있습니다. 


LLM과 LAM의 차이점

LLM vs LAM

(* 참고로, Salesforce AI Research 에 따르면, 고품질의 에이전트 전용 데이터가 부족하고, 이를 훈련시키기 위한 체계적인 규칙이 없어 이런 모델을 개발하는 것이 특히 어렵다고 합니다.

이 문제를 해결하기 위해 연구자들은 AI 에이전트 작업에 특화된 '대규모 액션 모델' xLAM을 개발했습니다.)


대규모 언어 모델(LLM)은 컴퓨터가 자연어(우리말처럼 사람이 사용하는 언어)를 이해하고 생성하도록 도와줍니다. 예를 들어, 질문에 답하거나, 글을 쓰는 일을 할 수 있죠. LLM은 방대한 양의 텍스트 데이터를 학습해 이런 능력을 얻습니다. 하지만 LLM은 실제로 물리적인 작업을 직접 수행하지는 않습니다. 

반면, LAM(Large Action Model)은 좀 더 복잡한 역할을 합니다. 단순히 글을 쓰는 게 아니라, 실제로 결정을 내리고 행동을 합니다. 예를 들어, 회의 일정을 잡거나, 스마트 홈 기기를 제어하는 일을 할 수 있습니다. 이처럼 LAM은 실시간으로 도구를 사용하고 작업을 수행하는 데 더 적합한 모델입니다.


AI 에이전트의 발전

AI 에이전트는 컴퓨터가 스스로 환경을 이해하고, 정보를 찾고, 작업을 수행하는 시스템입니다. 최근 이 기술은 점점 더 빠르게 발전하고 있으며, 비전(이미지 처리)과 텍스트 처리를 결합한 멀티모달 모델이 큰 변화를 일으키고 있습니다. 쉽게 말해, AI는 이제 글뿐만 아니라 이미지를 보고 이를 바탕으로 상황을 이해하는 능력도 갖추고 있다는 것입니다.

이렇게 되면, 에이전트는 더 복잡한 환경을 탐색하고 주변 세계를 더 잘 이해할 수 있습니다. 예를 들어, 텍스트뿐만 아니라 시각적 신호(이미지나 비디오)를 분석해 더 적절한 답을 제시할 수 있습니다. 


AI 에이전트는 단순한 정보 제공에서 벗어나 스스로 복잡한 작업을 수행할 수 있는 능력을 갖추기 시작했습니다. 초기에는 대규모 언어 모델(LLM)이 중심이 되어 자연어 처리에 집중해왔지만, 이제는 실제 행동과 결정을 수행하는 대규모 액션 모델(LAM)이 AI 에이전트 발전의 핵심 요소로 떠오르고 있습니다.


LAM이 중요한 이유는 다음과 같습니다.

    실행 가능한 결과 생성: LAM은 함수 호출이나 API와의 상호작용과 같은 구체적인 행동을 처리할 수 있습니다. 예를 들어, 단순히 회의를 추천하는 것을 넘어서, LAM은 정확한 시간에 회의를 예약하거나, 스마트 기기 제어를 자동으로 처리할 수 있습니다.  

    도구와의 실시간 상호작용: LAM은 텍스트나 데이터만 처리하는 것이 아니라, 실시간으로 도구를 사용하고 의사결정을 내리는 데 최적화되어 있습니다. 예를 들어, 로봇이 특정 동작을 해야 할 때, LAM은 그 동작을 수행하기 위한 정확한 명령을 생성합니다.  

    더 복잡한 작업 수행: LAM은 단순히 텍스트를 분석하는 것이 아니라, 다양한 작업을 조정하고 복잡한 액션을 수행하는 데 중점을 둡니다. 이는 자율 에이전트가 현실 세계에서 스스로 문제를 해결하고 행동할 수 있게 해줍니다. 예를 들어, 로봇이 상자를 쌓거나, AI가 자동으로 금융 거래를 실행할 수 있는 것이 LAM의 역할입니다.  


마치며

미래에는 여러 모델이 동시에 협력하는 일이 더 중요해질 것입니다. 예를 들어, 어떤 작업을 할 때는 텍스트 처리 모델, 이미지 처리 모델, 액션 모델(LAM) 등이 함께 작동해야 할 수 있습니다. 이렇게 여러 모델이 함께 잘 조율되는 것이 점점 더 중요해질 것입니다. 특히, 복잡한 업무를 처리할 때는 특수 목적에 맞는 여러 모델이 함께 일하는 방식이 필요해질 것입니다.



[ 참고사이트 ] 

https://theviennatimes.tistory.com/196

https://www.lgcns.com/blog/it-trend/52597/

https://medium.com/@simbatmotsi/lam-and-llm-differences-44623c769299

https://www.apple-economy.com/news/articleView.html?idxno=73348

https://brunch.co.kr/@ioojoo/325

https://www.mk.co.kr/news/business/11087510

https://www.salesforce.com/jp/news/press-releases/2024/09/11/2024-agentforce-ai-models-announcement/

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari