온디바이스 AI와 AI Agent
10월22일 Anthropic은 컴퓨터를 대신 조작할 수 있는 Claude 3.5 Sonnet를 런칭했다. 이 기술을 이용하면 사람이 마우스를 잡고 키보드를 두드리면서 컴퓨터를 사용하는 것을 Claude라는 AI를 통해 대신 컴퓨터 화면을 조작해준다.(computer-using Agent) 엑셀을 실행해 회사 직원 파일을 불러들여서, 입사한지 5년 10년 15년 20년된 직원을 찾아 해당 직원들의 집주소를 체크해서 이름, 집주소를 프린터로 인쇄하라는 명령을 내리면 대신 이 모든 절차의 작업을 대신해주는 기술이다. 기존의 ChatGPT와 다른 점은 무엇일까?
우선 같은 것은 하나의 명령어만으로 여러 단계를 거쳐야 하는 작업을 수행해낸다는 점이다. ChatGPT는 데이터 분석, 프로그래밍 코딩, 자료 정리와 분류 등 다양한 작업을 쉽게 처리해준다. Claude의 CUA(Computer-Use AI) 기능 역시 원하는 작업을 요청하면 자동으로 컴퓨터 화면의 메뉴와 아이콘 등을 인식해서 여러 소프트웨어나 브라우저를 실행하고 특정 자료나 사이트 등을 로딩하면서 화면의 결과물을 확인해서 적절한 내용을 발췌해 이를 정리해준다. 작동 방식은 비슷하지만 크게 다른 점은 컴퓨터 내의 소프트웨어와 자료 그리고 브라우저를 이용해 접근 가능한 인터넷 사이트의 내용들을 기반으로 작업을 수행한다는 점이 다르다. 즉, 기존의 AI가 클라우드에서 학습한 초거대 언어 모델(LLM)을 이용해 클라우드와 인터넷 상의 데이터를 활용해 작업을 수행하는 반면 CUA는 컴퓨터 내의 자료들을 기초로 사용자에게 위임받은 컴퓨터 제어권을 AI가 획득해서 대신 컴퓨터를 작동시킨다는 점이 다르다.
애플의 AI(Apple Intelligence) 역시 이처럼 Siri를 이용해서 AI가 아이폰을 대신 조작한다. Claude의 CUA처럼 사용자의 명령을 바탕으로스마트폰 내부의 앱과 데이터를 직접 다루며 작업을 수행한다는 점에서 모두 같은 개념이다. 이를 On-device AI라고 부르며 이를 수행해주는 AI를 AI Agent라고 부를 수 있다. 다만, Siri가 제한된 스마트폰 환경 내에서 특정 앱을 제어하는 데에 초점이 맞춰져 있다면, Claude의 CUA는 더욱 확장된 컴퓨터 환경에서 사용자가 필요로 하는 다양한 프로그램과 웹 자원을 다루며 전반적인 컴퓨터 조작을 대행한다는 점에서 차별성을 지닌다.
지난 30년간 우리의 인터넷 사용 방식은 손가락으로 키보드를 타이핑하냐, 마우스를 잡고 클릭하냐, 손으로 화면을 터치하느냐의 차이만 있었을 뿐 결국 GUI(Graphic User Interface)라는 화면을 보고 작업을 수행하는 방식이었다. 그런데 최근 AI가 LLM(Large Language Model), LMM(Large Multimodal Model), LAM(Large Action Model) 등의 기술적 다변화와 고도화 덕분에 컴퓨터와 스마트폰의 조작 방식을 획기적으로 개선할 수 있는 발판이 마련되고 있다.
그런 이유로 모토로라는 스마트폰용 AI LAM을, 구글은 프로젝트 자비스로, MS는 코파일럿 스튜디오로, 텐센트도 앱 에이전트라는 멀티모달 에이전트 프레임워크에 투자를 집중하고 있다. 이 모든 기술의 진화 방향은 PC나 스마트폰을 사람 대신 조작해서 인터넷이나 서비스, 특정 작업을 수행하는 것이다. 즉, 사람 대신 앱을 실행해 택시를 호출하며 쇼핑몰에 상품을 주문하는 등의 작업을 자동으로 수행할 수 있는 것이다. 더 나아가 회사에서의 업무에 있어서도 단순 반복 작업을 넘어, 여러 소스와 데이터에 접근하면서 비교 정리해야 하는 복잡한 작업에도 이같은 AI Agent가 업무의 편의를 극대화시켜줄 것이다.
그런데, 문제는 AI Agent가 더 높은 수준의 자율성을 발휘할수록 예상치 못한 이슈들이 발생할 수 있다. 첫째, 사람의 판단력과 통제권이 약화되는 점이다. AI가 개인의 컴퓨터와 스마트폰을 대신 조작하는 환경에서는 사용자와 기기 사이의 상호작용이 줄어들며, 이로 인해 컴퓨터나 스마트폰의 기본적인 운영 방식에 대한 사용자의 이해도가 떨어질 수 있다. 결국 AI의 판단에 의존하게 되면서, AI가 수행한 작업의 정확성이나 품질에 대해 사용자가 충분히 검토하지 못하게 된다. 이로 인해 AI가 발생시킨 실수나 버그, 또는 잘못된 해석이 그대로 반영될 위험이 커지고, 사람이 이에 대해 능동적으로 개입하거나 수정할 수 있는 기회가 줄어들 수 있다.
둘째, AI의 작업 완성도를 높이기 위해 더 많은 개인정보와 시스템 접근 권한을 부여해야 하는데, 이는 보안과 프라이버시 침해 가능성을 크게 높인다. AI가 메일, 금융 데이터, 파일, 사진 등 개인의 민감한 정보에 접근해야 하거나, 기업 시스템과 외부 자원에 대한 폭넓은 권한을 필요로 할 경우, 보안 문제가 필연적으로 대두된다. 이 과정에서 법적, 윤리적 문제 또한 발생할 수 있으며, 정보 유출이나 악용에 대한 위험이 높아지게 된다. 특히, 기업이나 국가 차원에서 이러한 데이터 접근이 허용될 경우, 내부 정보 보호와 국가 안보에 위협이 될 수 있다. AI 기술의 발전과 보안 사이에서 균형을 맞추기 위한 신중한 접근이 필수적이다.
마지막 셋째로는 AI의 기술적 한계에 따른 문제를 지적하지 않을 수 없다. AI가 사람 대신 데이터를 처리하고 기기나 소프트웨어를 조작하는 과정에서, 예기치 못한 오류나 시스템적 결함이 발생할 가능성은 상존한다. 인간도 실수하는데, AI라고 해서 무오류를 보장할 수는 없다. 문제는 AI가 수행한 작업에서 오류가 발생했을 때 이를 사용자나 관리자가 즉각적으로 감지하고 조치하기가 어렵다는 점이다. 사람이 직접 기기를 조작할 때는 즉각적으로 문제를 확인하고 대처할 수 있지만, AI는 작업 과정에 대한 피드백이 제한적이거나 오류를 간과할 수 있으며, 오작동의 원인 파악이 복잡한 시스템 로그에 묻혀 제대로 이루어지지 않을 수 있다. 더욱이, AI가 작업을 수행하는 과정에서 충분한 데이터를 확보하지 못하거나, 시스템 간의 연결에서 불완전한 정보가 전달될 경우, 그 결과물의 품질은 사용자 기대에 미치지 못할 수 있다. 이러한 문제는 AI 시스템의 신뢰도를 떨어뜨릴 뿐만 아니라, 잘못된 정보나 결과물이 중요한 결정에 반영될 경우 더 큰 리스크를 초래할 수 있다.
결국 AI Agent의 도입은 기술적 혁신을 가능하게 하지만, 이러한 문제들을 고려할 때 단순히 편의성을 넘어서는 깊은 논의와 대비가 필수적이다. 기술이 발전할수록 사회는 이를 통제하고 관리할 방법을 고심해야 하며, AI가 완전한 대행자로 자리 잡기 위해서는 인간의 통제와 감시가 여전히 필수적이라는 사실을 간과해서는 안 될 것이다.
✍ 2025년 IT/AI 전망과 기업/개인의 대처 방안에 대해 쓴 저자의 책
➡ https://www.yes24.com/Product/Goods/133327806
❍ 2025 IT/AI 트렌드 유료 강연
➡ https://www.youtube.com/playlist?list=PL7d4-rFjtYdLF66hIIptTnNOaJpy0PtrR