제목: 이제 AI 에이전트의 시대라는데
요약: AI 에이전트를 두고 혹자는 ‘에이전트 경제’를 말하기도 하고, 누구는 AGI의 도래를 말하기도 한다. 사람의 일자리를 대체하고, 전통적인 소프트웨어와 서비스가 AI 에이전트로 교체될 것이라고 한다. AI 에이전트는 일의 흐름을 설계하고 사용 가능한 도구를 활용해 사용자나 다른 시스템을 대신해 자율적으로 작업을 수행할 수 있는 시스템 또는 프로그램으로 설명된다. AI 에이전트는 의사 결정, 문제 해결, 외부 환경과의 상호 작용 및 작업 실행을 포함해 자연어 처리 이상의 광범위한 기능을 포괄한다. AI 에이전트는 다양한 애플리케이션에 포함될 수 있다. 에이전트는 LLM의 고급 자연어 처리 기술을 사용해 사용자 입력을 단계별로 이해하고 응답하며 외부 도구를 호출할 시기를 결정한다. AI 에이전트의 특징은 ▲자율성 ▲반응성 ▲선제성 ▲적응성 ▲목표지향성 등을 갖는다. AI 에이전트는 인간의 개입없이 독립적으로 작동한다. 외부와 환경의 자극에 반응해 대응한다. 에이전트는 질문을 받거나 어떤 계기 없이 목표 달성을 위해 선제적으로 활동할 수 있다. 경험을 통해 학습하고 결과를 바탕으로 행동을 조정하는 적응력도 가졌다. 특정 목표를 추구하도록 설계돼 해당 목표를 최적화하는 결정을 내린다. 지난 7월 오픈AI의 인공일반지능(AGI) 로드맵 5단계 내부 문서가 외부에 알려졌다. 오픈AI에 따르면, AI는 대화형 챗봇, 추론자(Reasoners), 에이전트(Agent), 혁신자(Innovators), AI 조직(Organizations) 순으로 진화한다. 대화형 챗봇은 오픈AI의 GPT-4 같은 언어모델이다. 사용자의 입력을 기반으로 자연어를 이해하고 맥락을 인식해 의도에 맞는 대화를 생성한다. 챗GPT는 그런 언어모델에 사용자인터페이스(UI)를 추가한 앱으로 볼 수 있다. 다음의 추론자는 인간 수준으로 깊이있는 전문 지식을 갖춰서 복잡한 문제를 해결할 수 있는 AI 시스템이다. 단순히 자연어를 생성하는 것을 넘어 문제를 이해해 논리적으로 추론하고 해결책을 만들어낸다. 에이전트는 장기간 자율적으로 작동할 수 있는 AI 시스템으로 묘사된다. 복잡한 작업을 수행하고 결정을 내릴 수 있으며, 지속적으로 변화에 적응한다. 인간의 지속적인 감독없이 이런 작업을 수행한다. 에이전트는 AI 자율성과 실용성에서 중요한 도약이며, 복잡한 작업을 독립적으로 처리함으로써 산업을 혁신할 잠재력을 갖는다고 평가된다. 에이전트 개발은 문제 해결 능력과 실제 시나리오에서 독립적인 개체로 기능할 수 있는 능력 간의 격차를 좁히는 중요한 단계다. 혁신가는 새로운 아이디어와 개념을 제시하고 솔루션을 만들어낼 정도의 능력을 가진 시스템이다. 문제해결을 넘어서 창의성을 발휘한다. AI 조직은 일반적인 조직과 단체에서 수행하는 광범위한 작업을 관리하고 실행할 수 있는 시스템이다. 의사결정, 관리 및 운영, 실행 등의 기능을 통합해 조직 내 여러 영역에서 자율적으로 기능한다.
https://byline.network/2024/11/5-233/
제목: 뤼튼, 서비스 1년10개월 만에 월간 이용자 500만 돌파…"토스·당근보다 빨라"
요약: AI 서비스 플랫폼 전문 뤼튼테크놀로지스는 이달 말 기준 뤼튼 MAU 수 500만명을 돌파했다고 31일 밝혔다. 뤼튼은 이날 그동안 축적한 데이터를 기반으로 한 국내 최초 컨슈머 AI 사용자 이용 패턴 분석 보고서인 '2024 뤼튼 유저 리포트'를 발간했다. 지난해 초부터 현재까지 뤼튼 사용자들이 AI를 이용해 무엇에 대해, 어떻게, 얼마나 대화했는지 등 데이터를 분석한 내용이다. 이에 따르면 지금까지 뤼튼에서 사용자가 AI와 주고받은 총 누적 대화 수는 6억8544만회에 달한다. AI 검색 핫토픽의 경우 10대는 ‘공부’ ‘진로 ‘친구’ 등이 상위권에 올라, ‘영어’ ‘가족’ ‘주식’ 등의 40대와는 큰 차이를 보였다. 사용자들이 가장 많이 생성한 AI 이미지 소재는 ‘사람’ ‘반려 동물’ ‘로고’ 등 순이었다. 선호하는 AI 이미지 그림체로는 ‘일러스트’ ‘애니메이션’ ‘웹툰’ ‘신비한’ ‘실사’ 등이 꼽혔다. 직업 별로 대학생의 주요 AI 대화 관심사는 ‘과학/기술(30%)' ‘영화/예능/드라마(27%)' ‘뉴스/이슈(24%)' 등이었고, 직장인은 ‘쇼핑/소비(33%)' '맛집/음식(30%)' ‘기업/산업(30%)' 등이었다. AI와의 ‘존댓말 대화 빈도 분석’도 눈길을 끌었다. 고연령층일수록 AI를 인격체로 여기고 존댓말을 빈번하게 사용하는 것으로 밝혀졌다. AI 대화에서 60대 이상은 5번의 발화 중 약 1번 꼴(19.67%)로 존댓말을 사용했으나, 20대는 5%, 10대는 3%의 낮은 빈도로 존댓말을 사용했다. 그리고 뤼튼 상위 10%(이용 시간 기준) 사용자들의 경우 AI ‘캐릭터 챗’을 월 평균 1343분 이용하는 것으로 나타났다. 이는 카카오톡(688분, 6월 모바일인덱스 조사)보다 두배나 긴 이용 시간을 보였다.
https://www.aitimes.com/news/articleView.html?idxno=164836
제목: MS의 AI 에이전트 도구 ‘옴니파서’, 허깅페이스서 다운로드 1위 올라
요약: 마이크로소프트의 인공지능 에이전트 도구 ‘OmniParser’가 출시된지 한달 만에 허깅페이스에서 가장 인기 있는 모델에 오르며 주목을 받고 있다. 옴니파서는 스크린샷을 AI 에이전트가 이해하기 쉬운 형식으로 변환하는 생성 AI 모델이다. 'GPT-4V'와 같은 비전언어모델이 그래픽 사용자 인터페이스를 더 잘 이해해 상호작용할 수 있도록 설계됐다. 클렘 델랑게 허깅페이스 CEO는 X에 “옴니파서는 에이전트 관련 모델 중 최초로 해당 기능을 수행하는 모델”이라고 소개했다. 이는 스크린샷을 VLM이 이해하고 활용할 수 있는 구조화된 요소로 변환하는 도구다. AI 에이전트가 화면 레이아웃을 보고 이해할 수 있도록 텍스트, 버튼, 아이콘과 같은 중요한 정보를 추출하고 이를 구조화된 데이터로 변환한다. 이를 통해 GPT-4V와 같은 모델은 GUI를 이해하고 사용자를 대신해 자율적으로 작업을 수행할 수 있다. 여기에는 온라인 양식 작성부터 화면의 특정 부분 클릭에 이르기까지 다양한 작업이 포함된다. 옴니파서의 강점은 각기 다른 역할을 하는 여러 AI 모델을 활용하는 데 있다. 'YOLOv8'은 버튼과 링크 등 상호작용이 가능한 요소를 감지, 좌표를 제공한다. 이는 화면의 어떤 부분을 눌러서 작업을 처리할 수 있는지를 식별하게 만든다. 'BLIP-2'는 감지된 요소를 분석해 목적을 결정한다. 예를 들어, 아이콘이 ‘submit’ 버튼인지 ‘navigation’ 링크인지를 식별해 맥락을 제공한다. GPT-4V는 욜로v8과 블립-2에서 제공한 데이터를 사용, 버튼 클릭이나 양식 작성과 같은 작업을 수행하고 결정을 내린다. 상호작용에 필요한 추론과 의사 결정을 처리한다. 또 OCR 모듈은 화면에서 텍스트를 추출하여 GUI 요소 주변의 레이블 및 기타 맥락을 이해하는 데 도움을 준다. 특히 옴니파서는 GPT-4V, '파이-3.5-V', '라마-3.2-V' 등 다양한 오픈 소스 VLM과 작동, 개발자들에게 접근성과 유연성을 확장하도록 돕는다. 이 기능은 앤트로픽이 클로드 3.5 소네트에 적용한 AI 에이전트 기능 ‘Computer Use’와 흡사하다. 컴퓨터 유즈는 AI가 화면 내용을 해석해 컴퓨터를 제어할 수 있게 해준다.애플 역시 모바일 UI를 겨냥한 'Ferret-UI'를 도입, AI가 위젯 및 아이콘과 같은 요소를 이해하고 상호작용할 수 있도록 하고 있다. 반면, 옴니버스는 다양한 플랫폼과 GUI에 대한 범용성과 적응성으로 차별화한다. 웹 브라우저나 모바일 앱 등 특정 환경에 국한되지 않고, 데스크톱부터 임베디드 화면에 이르기까지 광범위한 디지털 인터페이스와 상호작용할 수 있는 VLM을 위한 도구가 되는 것을 목표로 하고 있다.
https://www.aitimes.com/news/articleView.html?idxno=164856
제목: 메타, 온디바이스 AI ‘모바일LLM’ 정식 출시
요약: 메타가 휴대폰이나 소형 장치용으로 설계된 효율적인 온디바이스 인공지능 모델 ‘모바일LLM’ 제품군, ▲모바일LLM-125M ▲모바일LLM-350M ▲모바일LLM-600M ▲모바일LLM-1B를 오픈 소스로 출시했다. 이들 모델은 1억2500만개에서 10억개에 이르는 매개변수를 갖추고 있으며, 제한적인 메모리와 에너지 용량의 모바일 하드웨어 내에서 작동하도록 최적화됐다. 메타는 10억개 미만의 적은 매개변수를 가진 모델을 최적화하기 위해 네트워크 깊이 조정, 임베딩 공유 및 가중치 공유 기술을 적용했다고 밝혔다.일반적으로 매개변수가 작은 소형 모델의 경우, 모델의 레이어의 수를 늘리는 것이 성능을 향상하는 방법이다. 또 입력 임베딩 가중치를 출력연결 레이어 가중치로 재사용하는 임베딩 공유를 통해 효율적이고 컴팩트한 모델 아키텍처를 얻을 수 있으며, 공유 가중치를 캐시에 배치하고 이를 즉시 두번 계산하면 SRAM과 DRAM 간에 가중치를 전송할 필요가 없어 추론 실행 속도가 빨라진다. 이런 설계를 통해 모바일LLM은 소형에도 불구하고 벤치마크에서 뛰어난 성능을 기록했다. 125M와 250M 버전은 제로샷 작업에서 SOTA 모델보다 2.7~4.3% 더 나은 성과를 낼 수 있었다. 한자릿수 개선은 사소해 보일 수 있지만, 경쟁이 치열한 언어 모델 개발 분야에서 의미 있는 진전이라는 평가다. 특히 350M 버전은 훨씬 더 큰 메타 '라마-2 7B' 모델과 API 호출 성능에서 동등한 수준을 기록했다. 이는 잘 설계된 작은 모델이 훨씬 적은 계산 리소스를 사용하면서도 유사한 성능을 제공할 수 있다는 설명이다. 현재 모바일LLM은 허깅페이스에서 액세스할 수 있으며, 비상업적 용도로 사용할 수 있다. 한편, 이번 모델은 지난 7월 논문으로 공개한 모델을 개발, 정식 출시한 것이다. 또 메타는 지난달 24일 '라마 3.2 1B' 및 '3B' 모델의 새로운 버전을 출시하는 등 온디바이스 AI에 무게를 싣고 있다.
https://www.aitimes.com/news/articleView.html?idxno=164861
제목: 알트먼, 실수로 차기 모델 'o2' 힌트 공개..."벤치마크서 역대급 성능 보여"
요약: 샘 알트먼 오픈AI CEO가 X에 'o2'라는 모델명을 처음으로 언급했다. 서둘러 글을 삭제했지만, 차기 모델에 대해 중요한 힌트를 남기고 말았다.알트먼 CEO가 "o2가 GPQA에서 105%의 점수를 달성했다"라는 글을 게시했다고 보도했다. 그러나 이는 곧 사라지고, 현재는 “실수했다. 계정을 잘못 썼다"라는 설명만 남았다.o2라는 모델은 이제까지 언급된 바 없다. 하지만 추론 성능을 강화한 o1 모델의 후속 버전으로 보인다. GPQA는 AI 성능을 평가하기 위한 벤치마크로, 생물학, 물리학, 화학 전문가가 제작한 448개의 선택형 문제로 구성돼 있다. 문제가 매우 어려워서 일반인이 구글 검색을 이용해 도전할 경우에도 정답률이 34%에 불과하며, 박사학위 소지자나 박사과정 학생도 65%의 점수밖에 얻지 못한다. 이미 다양한 고성능 AI 벤치마크로 활용되고 있다. 'GPT-4o'는 53.6%, '클로드 3 오퍼스'는 50.4%, '라마 3 400b'는 48.0%의 점수를 기록한 바 있다. 105%라는 수치는 이처럼 기존 AI 모델과는 차원이 다른 것이다. o1이 대학원생 수준의 능력을 가지고 있다면, o2는 박사학위 소지자를 능가하는 답변 능력을 가지고 있다는 것을 시사한다.