AI 3대장
2023년이 ChatGPT로 인해 LLM(Large Language Model)이 부상했다면, 2024년은 LLM이 보다 고도화되면서 동시에 다양한 버티컬 산업에서 사용되며 SLM(Small Lagnuage Model)로 분화되고 있다. 그리고 이제 인간의 언어를 넘어서 우리가 보는 것 듣는 것까지도 포괄적으로 인식하고 이미지, 영상, 소리 등의 다양한 포맷으로 데이터를 생성하는 LMM(Large Multimodal Model)으로 다른 차원의 성장으로 이어지고 있다. 더 나아가 이제 LAM(Large Action Model)로 AI가 인식과 이해 그리고 생성을 넘어 실제 실행으로까지 이어지고 있다.
그저 코딩, 번역, 지식탐색, 데이터 분석과 문제풀이 등에 사용되던 AI가 보다 다양한 데이터를 인식하고 다양한 포맷의 데이터를 생성할 수 있게 되면서 특이점에 다가서고 있다. 이미 ChatGPT는 이미지를 인식하는 것을 넘어 생성하는 것까지 기본으로 제공하고 있으며 소라라는 영상 생성툴까지 제공될 계획이다. 또한, 삼성전자는 세계 최초의 AI폰인 갤럭시S24에 가우스와 구글의 제미나이 나노를 기반으로 SLM을 탑재해서 통화 시 자동 통역 서비스를 제공하고 있다. 애플 역시 아이폰의 제한된 메모리와 리소스에서 실행 가능한 경량화된 LLM에 대한 연구 논문과 짧은 비디오에서 3D 아바타 애니메이션을 생성할 수 있는 헉스라는 생성 AI 기술을 발표하기도 했다.
또한, 2024년 1월 CES에서 Rabbit이라는 스타트업은 R1이라는 새로운 단말기를 출시했는데 이 기기는 음성으로 명령을 내리면 클라우드의 버추얼 컴퓨터가 작동해서 미리 입력해둔 아마존이나 우버 등의 서비스에 대한 계정 정보를 활용해서 상품을 검색해서 주문하고 택시를 호출해준다. 일종의 LAM으로 AI가 사람 대신에 스마트폰 앱을 작동시켜서 원하는 작업을 수행해준다. 2월에 도이치텔레콤은 MWC 에서 앱프리폰이라는 AI폰을 선보였는데 앱을 다운로드하지 않고도 항공편, 호텔을 AI 에이전트에게 명령을 내리면 대신 AI가 수행해준다. MS도 윈도우 12에 코파일럿을 활용해 사용자의 지시만으로 직접 사용자가 마우스를 이용해 작업을 수행하지 않아도 자동으로 작업을 수행해준다.
애플이 발표한 MLLM(Multimodal Large Language Model)인 Ferret-UI는 스마트폰의 화면을 이해하고 사용자 지시에 따라 스마트폰을 대신 작동시켜준다. 아이콘과 텍스트 메뉴를 인식하고 사람의 명령에 담긴 의도를 인식해서 앱을 실행해 대신 화면을 조작해준다. 일종의 LAM으로 이런 AI가 PC나 스마트폰에 탑재되면 키보드, 마우스, 손가락 터치를 이용해 기기를 조작하던 기존의 작동 방식에 일대 혁신이 일어날 것이다.
궁극적으로 AI는 AI Agent로 귀결되고 있다. 인간의 언어를 이해하고, 우리가 보고 듣는 것을 인식하며, 다양한 작업을 수행할 수 있는 그런 자동화된 초지능형 AI가 AI Agent이다. 그런 AI Agent는 영화 아이언맨의 자비스처럼 인류에게 기계와 소프트웨어 그리고 인터넷 서비스를 사용하는데 있어 초개인화, 초자동화된 서비스의 구현을 가능하게 해줄 것이다. 이를 가능하게 해주는 기술이 바로 AI의 삼두마차인 LLM, LMM, LAM이다.
이제 앞으로 HW, SW를 이용하는 것은 인간이 아닌 AI일 것이다. 사람 대신에 우리의 명령을 인식해 그 의도에 맞게 하드웨어는 물론 소프트웨어를 자동으로 조작시켜주는 AI Agent 시대의 개막이 멀지 않았다.
=============================
▣ 작가의 전통기업의 DT 성과창출에 대한 Udemy 이러닝
➠ https://www.udemy.com/course/dt_jihyunkim
▣ 챗GPT가 가져올 새로운 비즈니스 기회와 개인 이용팁과 기업의 활용 방안에 대한 강연
➠ https://www.udemy.com/course/chatgpt-it-jihyunkim
✔ 프로 일잘러가 되기 위한 시간관리, 스마트워크 팁
➡ https://www.udemy.com/course/timemanagement_jihyunkim