brunch

You can make anything
by writing

C.S.Lewis

by 김준석 Nov 12. 2024

Weekly news on LLM - 11월 첫째주


제목: MS, 여러 AI 에이전트에 임무 분배하는 ‘마젠틱-원’ 시스템 공개

요약: 마이크로소프트가 하나의 총괄 인공지능 에이전트가 여러 보조 에이전트를 구동하여 서로 협력하고, 다양한 시나리오에서 복잡하고 여러 단계로 구성된 작업을 완료할 수 있게 하는 다중 에이전트 프레임워크인 ‘마젠틱-원(Magentic-One)’을 공개했다. MS는 마젠틱-원을 조직의 일상적인 운영이나 개인의 일상 생활에서 발견되는 여러 단계가 필요한 작업을 어떻게 해결할 수 있는지를 자율적으로 알아내는 '범용 에이전트 시스템'이라고 설명했다. 총괄 에이전트인 오케스트레이터가 네개의 다른 에이전트를 지휘하여 작업을 해결하는 다중 에이전트 아키텍처를 채택했다. 오케스트레이터는 계획을 세우고 진행 상황을 추적하며 오류가 발생할 경우 재계획해 복구하는 동시에 웹 브라우저 조작이나 로컬 파일 탐색, 파이썬 코드 작성 및 실행과 같은 작업을 수행하는 전문 에이전트들을 지휘한다. 파일서퍼 에이전트는 로컬 파일을 읽고 디렉토리를 나열하며 폴더를 탐색한다. 코더 에이전트는 코드를 작성하고 다른 에이전트로부터 받은 정보를 분석해 새로운 산출물을 생성한다. 컴퓨터터미널 에이전트는 코더 에이전트의 프로그램이 실행될 수 있는 콘솔을 제공한다. 이처럼 마젠틱-원의 에이전트들은 오케스트레이터에게 다양한 문제를 해결하는 데 필요한 도구와 기능을 제공하며, 동적이고 끊임없이 변화하는 웹과 파일 시스템 환경에 자율적으로 적응하고 행동할 수 있는 능력을 제공한다. 또 지난달 출시한 AI 에이전트 도구 ‘옴니파서(OmniParser)’는 허깅페이스에서 다운로드 1위에 올랐다. 옴니파서는 스크린샷을 AI 에이전트가 이해하기 쉬운 형식으로 변환하는 생성 AI 모델이다. 이처럼 AI 에이전트 분야에서 잇달아 연구 결과를 내고 있다. 한편, 기술 기업들은 AI 오케스트레이션 프레임워크, 특히 에이전트 워크플로우를 관리하는 시스템에서 경쟁하기 시작했다. 오픈AI는 에이전트가 협업을 주도할 수 있는 간단하면서도 유연한 방법을 제공하는 '스웜(Swarm)' 프레임워크를 공개한 바 있다. 크루AI의 멀티 에이전트 빌더도 에이전트를 관리할 수 있는 방법을 제공한다. 그동안 대부분 기업들은 에이전트 프레임워크 구축을 돕기 위해 랭체인(LangChain)을 활용해 왔다.

https://www.aitimes.com/news/articleView.html?idxno=164991



제목: 업스테이지 “기업에 필요한 기술은 멀티모달 아닌 풀스택 LLM”

요약: "기업들이 실제로 원하는 기술은 이미지 등을 읽어내 원하는 텍스트 형태로 출력해 주는 '풀스택 LLM'입니다. 이는 이미지를 출력하는 LMM과 다릅니다." 요즘 AI 개발 트렌드인 LMM은 이미지와 음성, 텍스트 등 여러 형태의 정보를 투입, 이를 다시 이미지나 음성, 텍스트 등 다양한 형태로 출력하는 것을 말한다. 예를 들어, 텍스트를 입력하면 이에 어울리는 이미지나 음악을 생성해 내는 식이다. 이는 정보가 들어가고 나올 때 ‘하나의 통로’를 거치는 방식이다. 권의현 엔지니어 등은 "모든 정보를 하나의 모델로 처리해야 하기 때문에 정확성이 다소 떨어질 수 있다는 위험성이 존재한다"라고 지적했다. B2B 전문 업스테이지가 추구하는 것은 LMM과는 다른 풀스택 LLM이다. 즉, 음성과 이미지 등을 입력하더라도 미디어 파일 내부에 있는 ‘텍스트’를 인식해 처리하는 것이다. 이 경우 "정확한 성능 발휘를 위해서는 모델 하나가 아닌, 여러 모델과 기능의 결합이 필요하다"라고 설명했다. 그리고 필수 기술 요소가 광학문자인식(OCR)과 정보추출(KIE), 도큐먼트 파스(Document Parse) 등이다. 이 분야는 업스테이지가 이미 세계적인 기술을 갖췄다고 자부했다. 이를 기반으로 최근에는 레이아웃 인식 능력을 극대화한 ‘도큐먼트 파스’ 모델을 공개했다. 도큐먼트 파스는 PDF, JPEG, DOCX, XLSX 등 다양한 파일과 문서를 인식해 컴퓨터가 읽을 수 있는 형태로 변환하는 기술이다. 모델 하나로는 여러 형태의 복잡한 문서 레이아웃을 모두 인식하기 어렵다는 것이다. 각 문서 형태에 맞는 모델을 활용해야 정확한 정보 추출이 가능하다. 즉, KIE를 이용하면 영수증의 총액 등 필요 정보만 얻어낼 수 있다. 기술 결합을 통한 확장성도 유망하다고 전했다. 도큐먼트 파스와 RAG의 결합을 대표적으로 꼽았다. 이는 문서를 도큐먼트 파스로 텍스트화한 뒤 RAG로 검색을 진행하는 방식이다, 방대한 데이터 중 원하는 정보를 얻어내는 경우, 이 조합이 가장 뛰어난 성능을 보인다고 전했다. 주세환 엔지니어는 “KIE를 비롯해 도큐먼트파스-LLM, 도큐먼트파스-RAG 등 여러 조합을 테스트하고 성능을 도출하며 각 기업의 수요에 맞는 기술을 지원하고 있다”라고 말했다. “그 결과 올해 업스테이지는 기술 도입을 논의한 기업과 100% 계약을 성사하는 성과를 이뤘다”라고 밝혔다. 특히, 도큐먼트 파스와 솔라에 결합하면 LLM의 업무 생산성을 극대화할 수 있다고 설명했다. LLM이 두뇌 역할을, 도큐먼트 파스가 눈 역할을 수행하는 것이다. 실제로 도큐먼트 파스 출시 후 기존보다 몇배 많은 기업 수요가 발생했다고 전했다.

https://www.aitimes.com/news/articleView.html?idxno=165121



제목: 오픈AI "AI 에이전트 개발 핵심 과제는 추론과 도구사용 기능 향상"

요약: 오픈AI가 인공지능 에이전트 성능 고도화를 위한 우선순위로 '추론'과 '도구사용' 능력 강화를 꼽았다. 또 최근 출시한 리얼타임 API와 챗GPT 서치는 AI 에이전트 개발을 위한 필수 과정이었다고 설명했다. OpenAI의 고드먼트 책임자는 최근 출시한 리얼타임 API와 챗GPT 검색이 결국 AI 에이전트 기능을 위한 것이라고 강조했다. 그는 "몇년이 지나면 지구상의 모든 사람과 모든 기업에는 맞춤형 에이전트가 있을 것"이라며 "에이전트는 당신을 매우 잘 알고 있을 것"이라고 말했다. 에이전트는 사용자를 대신해 이메일과 앱, 캘린더 등에 접근할 수 있고, 각 도구와 상호 작용하고 특정 주제에 대한 논문을 쓰는 것과 같은 장기적인 문제를 해결하는 등 '총괄 매니저'처럼 행동할 것이라고 설명했다.  오픈AI의 전략은 에이전트를 직접 구축하는 것은 물론, 개발자가 자체 에이전트를 구축할 수 있도록 돕는 것이라고 전했다. 이를 위해 오픈AI 기술로 개발자들이 챗봇을 구축할 수 있도록 지원하는 리얼타임 API가 중요하다는 것이다. 리얼타임 API를 통해 지원하는 고급음성모드(AVM)는 에이전트의 느낌을 강화하는 것은 물론 사용성에서도 중요한 역할을 할 것으로 봤다. "현재 대부분의 앱은 채팅 기반이지만, 모든 사용 사례에 적합한 것은 아니다"라며 "타이핑을 하지 못하거나 화면을 볼 수 없는 사용 사례를 위해 음성은 필수적"이라고 말했다.  그러나 고드먼트 책임자는 에이전트가 실제로 존재하기 위해서는 극복해야 할 두가지 큰 장애물이 있다고 지적했다. 

  첫번째는 추론이다. AI 에이전트가 복잡한 작업을 완료하고 올바르게 일을 처리할 수 있으려면 믿을만한 성능을 내야 한다는 것이다. 그래서 오픈AI도 o1 모델을 개발한 이후에 에이전트 기능을 강화할 수 있었다고 전했다. o1은 답변을 생성할 시간을 더 주면 실수를 인식하고 수정하고, 문제를 더 작은 문제로 나누고, 질문에 답하는 다양한 접근 방식을 시도할 수 있다. 물론 o1이 추론 능력에 대해서는 회의적인 시선도 있다. 애플 연구진은 지난달 "AI는 본질적으로 추론이라는 작업을 할 수 없으며, 패턴 매칭 능력이 향상된 것일 뿐"이라는 연구 결과를 내놓았다. 고드먼트 책임자도 아직 할 일이 많다고 인정했다. 단기적으로는 o1과 같은 추론 모델을 더 안정적이고 빠르고 저렴하게 만드는 것이다. 장기적으로는 현재 수학이나 과학, 코딩에 집중된 추론 기능을 법률이나 회계, 경제 등 다양한 분야로 확장하는 것이다. 두번째는 다양한 도구를 연결하는 기능이다. 대표적인 것이 검색 기능으로, 기존 훈련 데이터에만 의존해야 하면 에이전트의 기능은 제한될 수밖에 없다는 것이다. 검색은 물론 현실 세계에서 조치를 취할 수 있어야 한다. 앤트로픽의 '컴퓨터 유즈'처럼 인터페이스와 상호작용, 컴퓨터를 실제로 작동하는 능력을 말한다. "o1은 어느 정도 도구를 사용할 수는 있지만, 아직 고도화할 여지가 많다"라고 밝혔다.   

https://www.aitimes.com/news/articleView.html?idxno=165099



제목: 요리할 때 식기세척기 쓰듯 … AI에이전트가 잡일 도맡아 처리

요약: 인공지능이 사람을 대신해 각종 업무를 대신해주는 '인공지능 에이전트'가 최근 화두다. 특히 기업 내부의 업무를 AI가 대신해 생산성을 높여주는 엔터프라이즈 분야의 AI 에이전트는 거대한 시장을 만들어낼 것으로 기대되고 있다. 이 분야에 가장 앞선 회사는 엔터프라이즈 소프트웨어 분야 최강자인 미국 세일즈포스다. 세일즈포스는 스탠퍼드대에서 로보틱스와 딥러닝 결합을 연구했던 실비오 사바레세 교수를 2021년 '최고과학자(Chief Scientist)'로 영입해 세일즈포스 AI 연구소를 설립했다. AI 에이전트 분야의 최고 전문가라고 할 수 있는 그에게서 AI 에이전트의 미래를 들어봤다. 한국 언론사와는 첫 인터뷰다. 다음은 일문일답.

― AI가 고객의 컴퓨터 화면을 직접 조종하는 앤스로픽의 '컴퓨터 유즈'를 어떻게 생각하나.

▷혁신의 일부라고 생각한다. 이를 통해 인간이 창조적인 업무를 할 수 있다. 스크린 에이전트를 통해 신입 직원이 생산성을 높일 수 있도록 교육하는 코치 역할을 AI가 할 수 있다. 직원은 대신 경험에 집중할 수 있다. 이는 AI 툴의 사용을 민주화할 것이다. 경험이 많은 직원들도 이런 툴이 생산성을 높일 것이다. 우리가 요리를 할 때 전자레인지나 식기세척기를 사용하는 것처럼, AI를 쓰게 되고 인간은 좀 더 높은 차원의 일을 하게 된다. 가족과 보내는 시간도 늘어날 것이다. 미래에 근로자는 계획자가 될 것이다. 다양한 AI 에이전트가 낮은 차원의 업무를 하도록 하고 자신은 디자인과 창조적인 일을 하는 사람이 될 것이다.

― 거대행동모델(LAM·Large Action Model)을 얘기했는데.

▷내가 LAM이라는 개념을 얘기한 것은 우리가 LLM 너머를 가야 하기 때문이다. LLM은 생성을 한다. 텍스트를 생성하고 요약을 하고, 이메일을 쓰거나 정보를 찾는 등의 일이다. 멀티모달리티를 통해 그림을 그리기도 한다. 하지만 LLM은 실제 세계에서의 행동은 하지 않는다. 사실 LAM은 우리 세일즈포스가 가지고 있던 상표이고, 내가 세일즈포스에 합류한 뒤 작년에 다시 가져온 것이다. 우리는 모델을 실제 세계에서 학습시켜 언어뿐만 아니라 행동까지 할 수 있도록 학습시켜야 한다. 실제 세계의 반응에 따라 AI 모델의 행동을 변화시키고, 이 행동이 환경에 어떤 영향을 미치는지도 학습시킨다. LAM의 학습 과정은 강화학습 과정과 유사하다.

― 최근의 인공신경망 연구에 대한 생각은.

▷ 첫 번째 영역은 에이전트-에이전트 상호 작용을 어떻게 만들지 해결하는 것이다. 두 번째 영역은 멀티모달 에이전트다. 에이전트가 주변을 인식하고 행동할 것인가를 뜻한다. 이런 에이전트가 물리적 세계에서 로봇으로 어떻게 행동할 것인가에 대한 연구가 중요하다고 본다.

https://www.mk.co.kr/news/it/11165139



제목:SKT, 글로벌향 AI 비서 ‘에스터’ 공개…내년 북미 출시

요약: SKT가 국내를 넘어 글로벌 시장을 겨냥한 첫 인공지능 에이전트 서비스 ‘에스터(A*)’를 공개했다. 에스터는 올해 클로즈베타테스트를 거쳐 내년 북미 시장에 출시될 계획이다. SKT가 글로벌 이용자를 위한 B2C AI 서비스를 출시하는 것은 이번이 처음이다. ‘에이닷(A.)’이 있지만 국내 이용자만 쓸 수 있다. 에스터는 미국 실리콘밸리 계열사 ‘글로벌AI플랫폼코퍼레이션’이 앤트로픽, 퍼플렉시티 등 현지 AI 기업들과 협력해 서비스를 개발해왔다. SK텔레콤이 도이치텔레콤·이앤(e&)·싱텔·소프트뱅크 등 전 세계 주요 이동통신사들과 공동 구축 중인 통신 특화 LLM, 이른바 ‘텔코 LLM’ 기술도 활용된다. 챗GPT를 포함해 AI 비서 서비스 경쟁이 치열한 가운데 에스터는 이용자의 의도를 명확하게 파악하고 할 일 목록을 만들어 체계적으로 명령을 수행하는 특장점을 가졌다는 게 SK텔레콤의 설명이다. 가령 이용자가 ‘이번 주말 파티를 위한 저녁 준비를 도와줘’라고 명령하면 에스터는 이용자가 만들려는 메뉴가 무엇인지 추가 대화로 파악하고 이에 맞는 레시피와 요리 순서, 식재료 구매 연계 등 할 일 목록을 세분화해 제공할 수 있다. SKT는 쉽고 간편한 계획 수립, 빈틈없이 꼼꼼한 관리, 신속한 응답을 에스터의 핵심 가치로 삼고 모호하고 복잡한 이용자 요청에도 완결적인 문제 해결을 돕는 것을 목표로 한다고 강조했다. 회사 관계자는 “다양한 글로벌 검색 서비스와 LLM 개발사, 서드 파티 애플리케이션과 전방위적 협력을 추진해 북미 사용자의 AI 경험 혁신에 앞장설 예정”이라고 말했다.

https://www.sedaily.com/NewsView/2DGQ7835RX



작가의 이전글 Weekly new on LLM - 10월 다섯째주
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari