Claude에서 Computer Use 라는 놀라운 기능을 선보였다. (출처 : 앤트로픽)
앤트로픽에서 새로운 업데이트를 발표했습니다. 컴퓨터 사용 (Computer Use)이라는 기능인데요. 생성형 AI가 이렇게 또 한 번 혁신하는군요.
기존의 AI는 서비스 툴 안에서 사용하게 됩니다. 해당 서비스 내에서 질문하고 대답합니다. 이미지나 영상 그리고 오디오로 확장한 멀티 모달로 확장할 수는 있었죠.
하지만 이제는 AI가 사람이 실제 컴퓨터를 쓰는 방식을 그대로 모방해서 어떤 미션을 수행할 수 있게 되었습니다. 말 그대로 AI가 컴퓨터를 명령에 따라 조작하는 거죠.
Claude의 Computer Use 기능은 아직은 베타 버젼이지만 앞으로의 가능성은 엄청납니다.
오늘 수요레터에서는 Claude에서 소개한 Computer Use의 기능 데모와 의미에 대해서 정리해 보겠습니다.
Claude 사용 화면. Claude 3.5 Sonnet (New)라고 새로운 기능이 업데이트 되었음을 보여준다. 오늘 소개할 Computer Use는 개발자용 API 만 오픈한 상태이다.
사람이 컴퓨터를 이용하는 방식을 그대로 AI가 수행하는 기능입니다.
화면을 보고, 커서를 움직이고, 버튼을 클릭하고, 텍스트를 입력하는 방식을 사람이 직접 하지 않고, 그냥 Claude를 통해서 지시할 수 있는 거죠.
OpenAI 나 Goolge에서도 관련된 기능을 준비 중인 것으로 알고 있는데, Claude가 먼저 선수를 쳤습니다.
아직은 실험 단계이고 제약된 환경에서만 효과를 보인다고 앤트로픽은 밝히고 있는데요.
현재는 개발자의 피드백을 얻기 위해서 API만을 공개한 상태이고, 시간이 지나면서 아마 빠르게 업데이트되지 않을까 생각합니다.
그리고 여러 서비스 기업과도 Computer Use 기능을 테스트해 보고 있다고 하는데요. Asana, Canva, The Browser Company 같은 서비스들입니다.
앤트로픽에서는 Claude의 Computer Use에 대해서 총 3가지 데모를 소개했는데요.
코딩, 업무 수행, 업무 자동화 이렇게 3가지 입니다. 영상을 보면 기존에 AI를 사용하는 방식과는 전혀 다르다는 것을 볼 수 있는데요. 마치 진짜 사람 조수를 한 명 두고, 그 조수에게 일을 시키는 것과 같은 느낌입니다.
그중에서 업무 자동화 부분의 데모를 간단히 소개해 드릴게요.
먼저 데모 환경을 설명합니다. 해당 영상은 실제 Claude가 수행한 장면을 녹화한 것이라고 하구요. 다만 아직은 베타 버젼이라 해당 기능의 장점을 강조하기 위해서 환경을 제한하고 조절된 상태로 진행했다고 합니다.
어떤 고객이 특정 양식을 보내주고 내용을 채워서 보내달라고 하는 요청 사항을 Claude가 실제로 어떻게 처리하는지를 보여주는 데모인데요.
Claude에게 이렇게 명령합니다.
“ Ant Equipment Co 라는 회사에서 온 요청 항목들을 채워주는데, 스프레드시트에 있는
내용을 이용하거나 아니면 벤더 포탈에서 찾아서 채워줘. 이 두개의 창을 통해서 항목을
확인하고 완료해줘 “
실제로 회사에서 하는 업무의 형태와 정말 똑같지 않습니까? 이런 지시를 Claude가 처리해 나갑니다.
화면을 보면 왼쪽에 스프레드시트가 있고, 관련된 정보를 찾을 수 있는 벤터 포탈이 탭으로 있습니다. 오른쪽 창에는 고객이 요청한 기입 항목이 있구요. 왼쪽의 내용을 확인해서 오른쪽의 항목에 맞춰 입력하고 제출하는 미션입니다.
왼쪽 사이드바에서는 Claude가 동작하는 상태를 표시해 주고 있습니다.
상단에 미션을 명령한 내용이 보이고, 그 아래에는 해당 명령을 Claude가 수행해 나가는 과정을 설명하고 있습니다.
요청한 미션을 수행하겠다고 Claude가 말하고, 화면을 캡쳐합니다.
Claude는 스크린샷된 이미지를 분석해 나가는 과정을 통해 상황을 이해하고 처리해 나간다고 볼 수 있죠.
스프레드시트 화면을 보니 해당되는 정보를 찾지 못했다고 Claude가 말합니다.
그래서 벤더 포탈 탭을 누르겠다고 말하고는 그 다음 액션을 진행합니다.
Claude가 죄표가 표시하는데, 화면에서 해당 좌표 위치로 마우스 커스를 이동시키겠다고 하는 겁니다. Computer Use 기능은 AI가 사용자의 컴퓨터를 실제로 조절할 수 있도록 연동되어 있습니다. AI가 명령에 따라 컴퓨터를 직접 조정하는 거죠.
그리고는 포탈 화면을 다시 스크린캡쳐 하고 내용을 분석합니다.
해당 포탈에서 'Ant Equipment Co' 라는 회사의 정보를 찾기 위해, 검색창에 해당 기업의 이름을 타이핑 합니다. 타이핑하는 과정도 Claude가 직접 진행하고 있다는 것을 기억해야 합니다.
포탈 창에서 검색 결과에 따라 그 기업의 회사의 내용이 나오고, Claude가 페이지 다운을 해가면서 추가적인 정보를 검색합니다. 검색한다는 표현은 정확하게는 해당 화면을 스크린캡쳐하고 이미지를 분석하는 과정이라고 볼 수 있습니다.
그리고는 오른 쪽에 있는 요청된 입력 창에 필요한 내용을 Claude가 입력합니다.
입력이 완료되었고 최종적으로 Claude가 제출까지 완료합니다.
대단하지 않습니까? 정말 사람이 컴퓨터를 사용해서 작업하는 방식과 놀랍도록 유사합니다.
물론 아직은 많은 한계가 있어 보입니다.
무엇보다 이런 미션을 위해서는 엄청난 데이터가 필요합니다. 현재는 제한된 스크린샷으로만 분석해서 결과를 내는 수준인데, 실제 사람이 하는 것처럼 동작하기 위해서는 동영상과 같은 많은 프레임을 연속적으로 빠르게 분석해야 하는 부담이 있죠.
또 스크롤, 드래그, 확대/축소 처럼 사람이 손쉽게 하는 동작들은 Claude가 수행하기에 많은 개선이 필요하다고 얘기하고 있습니다.
결국은 성능 개선과 비용의 문제입니다. 그래서 지금처럼 엄청난 속도로 AI가 발전하는 상황으로 볼 때 어쩌면 아주 빠른 시일 내에 실제로 기업이나 일반인이 사용할 수 있는 버젼의 제품이 나올 수도 있을 것 같습니다.
또 하나는 악용의 염려입니다. 앤트로픽도 스스로 밝힌것처럼 Computer Use 기능은 스팸이나 사기 등에 악용될 가능성이 아주 높습니다. 그래서 매우 적극적인 안전 조치를 마련하고 있다고 앤트로픽은 얘기하고 있습니다.
하지만 늘 그래왔듯이 어떤 기술이라 하더라도 그것을 악용하려는 시도는 항상 일어나게 마련이죠. 근본적으로 막을 수는 없을 겁니다.
아무튼 이번 Claude가 발표한 Computer Use 기능은 앞으로 AI 발전의 큰 이정표가 될 것으로 전망합니다. 거대한 혁신이 펼쳐지고 있습니다. 좋은 의미든 나쁜 의미든 말이죠.