한계를 보여주고 있지만, 가능성은 충분한 Agent 도구 등장
인공지능(AI)은 현재 기술의 중심에서 급격히 발전하고 있으며, 다양한 분야에서 그 영향력을 넓혀가고 있습니다. 그 중에서도 최근에 발표된 Anthropic의 Claude AI 모델은 특히 AI가 컴퓨터와 직접 상호작용하는 새로운 능력을 통해 기술의 새로운 전환점을 맞이하게 만들었습니다. Anthropic은 Claude AI의 최신 버전에서 AI가 인간처럼 컴퓨터를 사용할 수 있도록 하는 혁신적인 기능을 도입하였으며, 이를 통해 AI는 단순한 명령 수행에서 벗어나 더 직관적이고 인간과 유사한 방식으로 디지털 환경과 상호작용할 수 있게 되었습니다.
Claude AI의 최신 업그레이드 중에서도 Claude 3.5 Sonnet과 Claude 3.5 Haiku는 매우 주목할 만한 성능 향상을 보여주고 있습니다. Claude 3.5 Sonnet은 특히 프로그래밍 작업에서 우수한 성과를 기록했으며, SWE Bench Verified Test에서 49.0%라는 놀라운 성능을 보여주었습니다. 이는 현재까지 공개된 AI 모델 중 가장 높은 성능을 기록한 결과로, AI의 능력이 어느 수준까지 도달했는지 보여주는 지표라고 할 수 있습니다.
또한, 3.5 Haiku 모델은 이전의 최고 성능 모델이었던 Claude 3 Opus를 여러 벤치마크에서 뛰어넘으며 성능의 새로운 기준을 세웠습니다. 이러한 성능 향상은 Claude AI가 인간의 복잡한 작업을 더욱 잘 이해하고, 처리할 수 있게 되었음을 의미합니다. 특히, 프로그래밍과 같은 고도의 논리적 작업에서의 향상은 AI가 점점 더 복잡한 문제를 해결할 수 있게 되었다는 것을 보여줍니다.
이번 Claude AI 모델에서 가장 주목해야 할 부분은 컴퓨터 사용(Computer Use) 기능입니다. Anthropic이 공개한 이 기능은 AI가 마우스 포인터를 움직이고, 화면 요소를 클릭하며, 가상 키보드를 사용하여 정보를 입력할 수 있게 합니다. 이로 인해 AI는 단순히 명령을 해석하고 수행하는 것을 넘어, 인간처럼 직접적으로 컴퓨터를 사용하여 작업을 수행할 수 있게 되었습니다. 이는 AI가 디지털 환경에서 인간과 유사한 방식으로 상호작용할 수 있는 가능성을 열어주었습니다.
특히, Claude는 컴퓨터 인터페이스와 상호작용할 때, 마우스와 키보드를 사용하여 파일을 관리하거나 문서를 작성하고, 인터넷을 검색하는 등 다양한 작업을 수행할 수 있습니다. 이는 AI가 실질적으로 컴퓨터 사용자의 역할을 대체하거나 보완할 수 있는 수준으로 발전했음을 의미합니다.
Selenium과 Robot Framework를 이용해서 통합테스트까지 자동화하는 것을 검토 중이었던 저로서는 Claude의 이런 새로운 모델과 활용방법이 조만간 SDLC에서 많은 영역의 변화를 이끌어 낼 수 있지 않을까 내심 기대하지 않을 수 없기도 합니다.
물론 Claude AI가 컴퓨터 사용 능력을 갖추었지만, 여전히 해결해야 할 과제들이 남아 있습니다. 예를 들어, 스크롤, 드래그, 줌과 같은 직관적인 작업은 인간에게는 매우 쉬운 작업이지만, Claude AI에게는 여전히 어려운 도전 과제입니다. OSWorld 벤치마크에서 Claude 3.5 Sonnet은 14.9%의 점수를 받았는데, 이는 인간의 능력에 비하면 여전히 큰 격차가 있다는 것을 의미합니다.
AI가 실제로 컴퓨터를 사용하는 데 있어 인간의 손끝 감각과 같은 자연스러운 직관을 구현하는 것은 쉽지 않은 일이죠. 특히, 복잡한 작업을 수행할 때 AI가 문맥을 완벽하게 이해하고, 적절한 결정을 내리는 데에는 아직 많은 발전이 필요합니다.
특히, Claude가 모델의 한계를 설명하면서 "플립북"이라는 용어를 언급한 것은 AI가 화면의 정적 이미지나 내용을 단순히 인식하는 데 그치지 않고, 동적인 요소와 맥락을 이해하고 상호작용하는 능력의 한계를 이해시키기 위한 것이었죠. 즉, AI가 인간처럼 복잡한 작업을 수행하기 위해서는 이러한 플립북과 같은 동적 콘텐츠를 효과적으로 처리할 수 있는 능력이 필요하다는 점을 강조한 것입니다.
그러나 Claude AI의 발전 가능성은 매우 큽니다. 다음은 Claude가 컴퓨터 사용 능력을 더욱 향상시킬 수 있는 몇 가지 주요 개발 방향은 아래와 같이 정리될 수 있을 듯 합니다.
1. 사용자 경험 학습: Claude AI는 개별 사용자의 컴퓨터 사용 패턴을 학습하여, 점차 사용자가 선호하는 방식으로 작업을 수행할 수 있을 것입니다. 예를 들어, 자주 사용하는 파일 경로나 작업 순서를 학습하고, 이를 바탕으로 더 빠르고 효율적으로 작업을 수행할 수 있습니다. 이는 사용자의 고유한 워크플로우를 이해하고 모방하는 능력을 통해 이루어질 수 있습니다.
2. 맥락 인식 향상: 현재 Claude AI는 화면의 정적 이미지를 인식하고 상호작용할 수 있지만, 미래에는 더 동적인 화면 변화를 이해하고 처리할 수 있는 능력이 요구됩니다. 이를 통해 AI는 화면 상의 요소들 간의 관계를 파악하고, 보다 복잡한 상호작용을 가능하게 할 수 있을 것입니다.
3. 복잡한 작업 자동화: Claude AI가 단순히 클릭과 입력만이 아닌, 여러 단계를 거치는 복잡한 작업을 자동으로 수행할 수 있는 능력이 개발된다면, AI는 사용자 대신에 다중 작업을 수행할 수 있는 진정한 디지털 어시스턴트로 자리잡을 수 있을 것입니다. 이는 특히 비즈니스 환경에서 시간 절약과 생산성 향상에 크게 기여할 수 있습니다. RPA 시장의 변화도 이 기능이 언제 등장하느냐의 문제일 뿐, 큰 변화가 기대되는 부분이죠.
4. 시각적 데이터 처리 능력 강화: Claude는 현재 이미지나 시각적 콘텐츠를 해석하는 능력이 제한적입니다. 시각적 데이터를 더 잘 처리하고 이해하기 위해, Claude는 더욱 풍부한 시각적 데이터 세트를 학습해야 하며, 이를 통해 복잡한 이미지나 비디오 콘텐츠를 생성하거나 분석할 수 있는 능력을 갖추게 될 것입니다.
5. 멀티태스킹 능력: 여러 애플리케이션을 동시에 조작하고 정보를 통합하는 능력은 Claude AI의 발전에 있어 필수적인 요소입니다. 특히, 복잡한 프로젝트 관리나 데이터 분석 작업에서 이러한 능력은 필수적이며, 이는 AI가 다양한 도구와 인터페이스에서 실시간으로 작업을 수행하고, 여러 작업을 동시에 처리할 수 있게 만듭니다. 아마도, AI를 위한 API Hub와 인터페이스들의 연결을 강화하는 서비스가 얼마나 제대로 상호연결되느냐가 관건으로 보여요.
이러한 기술적 발전은 AI가 인간과 유사한 방식으로 컴퓨터를 사용하는 새로운 시대를 열 수 있음을 시사합니다. 특히 Claude AI와 같은 모델은 기존의 제한적인 AI 시스템을 넘어, 사용자의 의도를 보다 깊이 이해하고 창의적으로 문제를 해결하는 진정한 디지털 어시스턴트로서의 역할을 할 수 있죠.(앞으로 다가올 미래지만 예측은 충분히 가능하죠) 이를 통해 AI는 단순히 데이터를 처리하는 도구에서, 사람과 함께 협력하며 작업을 수행하는 동반자로 진화할 가능성을 이미 보여 주고 있습니다.
그러나 이러한 발전이 이루어지기 위해서는 몇 가지 중요한 과제가 남아 있습니다. 특히, 개인정보 보호와 보안에 대한 문제가 그 중에서도 가장 중요합니다. AI가 컴퓨터 사용자의 개인정보나 민감한 정보를 처리하는 데 있어, 이를 보호하고 안전하게 관리할 수 있는 체계가 필수적으로 마련되어야 하죠. 인류에게는 아직도 핵미사일 발사버튼을 누르는 AI에 대한 심각한 두려움이 1980년대부터 자리잡아 있습니다. 그러니까, 어디까지 AI가 할 수 있도록 제한할 것인지 Action(실행) 버튼의 한계를 분명하게 제한할 수 있어야 할 겁니다. 그렇지만, 이 녀석이 해킹을 시도한다면 어떤 일이 벌어질까요? 분명, AI가 해킹을 시도하는 사례는 사람을 통해 실행될 것이 분명하니 말입니다. 아래 '위험한 게임'(Wargames)이라는 영화에서도 겨우 중학생의 해킹으로 AI가 동작을 시작하거든요. (매튜 브로데릭이 이 영화로 엄청난 스타가 되기도 했었죠.)
그럼에도 불구하고, 우리는 샌드박스 안에서 실행되는 AI의 고삐를 점차 풀어주게 될 것이고, 우리의 일상을 바꾸는 것을 막을 수는 없을 것입니다. AI가 점점 더 많은 컴퓨터 사용 능력을 갖추게 되면서, 우리는 새로운 디지털 혁명의 문턱에 서 있는 셈이죠. (왜 제 세대에서 이런 혁명적인 사건들이 일어나는지... 하아) 새롭게 Agent 경쟁에 본격적으로 뛰어든 Anthropic, 이제 Google이 제대로 된 답을 할 시기가 닥쳤습니다. (셔먼법에 의한 독점 분쟁에서 패소한 구글이 정신이 있으려나 싶지만...)