brunch

라이킷 11 댓글 공유 작가의 글을 SNS에 공유해보세요

You can make anything
by writing

C.S.Lewis

오픈 AI operator 에이전트의 기능과 한계

AI 에이전트 시발점

by 인사라 Jan 27. 2025

OpenAI는 최근 AI 에이전트의 시발점을 알렸다. 2025년 1월 'Operator'라는 새로운 도구를 출시하면서이다. 이 도구는 Computer-Using Agent (CUA)라는 최신 모델에 기반하여 사용자의 다양한 작업을 처리하며, AI가 그래픽 사용자 인터페이스(GUI)와 상호작용할 수 있도록 돕는다. Operator는 AI가 웹 상에서 실제로 작업을 수행할 수 있게 하며, 다양한 기능을 통해 사용자의 효율성을 크게 향상시킨다.


출처: 오픈AI 캡처출처: 오픈AI 캡처


CUA 모델을 통한 자동화 작업


Operator는 GPT-4의 시각적 기능과 강화 학습을 결합한 CUA 모델을 활용한다. 이 모델은 사용자가 화면에서 볼 수 있는 버튼, 메뉴, 텍스트 필드를 인식하고 이를 바탕으로 웹에서 작업을 자동으로 수행한다. 예를 들어, 웹사이트의 버튼을 클릭하거나, 텍스트 필드를 채우는 등의 작업을 마우스와 키보드를 사용하는 것처럼 자연스럽게 처리할 수 있다.


웹 상에서의 자율적 작업 처리


Operator는 브라우저에서 발생하는 작업을 웹 페이지의 스크린샷을 통해 "보고", 마우스와 키보드를 통해 "상호작용"하면서 실행한다. 이를 통해 사용자에게 특별한 API 통합 없이 웹에서 직접 작업을 수행할 수 있는 기능을 제공한다. 예를 들어, 복잡한 폼 작성이나 여러 사이트에서의 작업을 자동으로 처리한다.


자기 수정 및 협업 기능


Operator는 작업 중 오류가 발생하거나 문제가 생길 경우, 자체적인 추론 능력을 통해 이를 수정하려 시도한다. 만약 문제가 해결되지 않으면, 사용자가 직접 제어를 되찾을 수 있도록 요청하며, 이를 통해 사용자와 AI 간의 협업이 원활하게 이루어진다.


다중 작업 실행 및 사용자 맞춤화


Operator는 한 번에 여러 작업을 실행할 수 있다. 예를 들어, 사용자가 쇼핑몰에서 제품을 주문하는 동시에, 여행 사이트에서 예약을 진행하는 등의 멀티태스킹을 지원한다. 사용자는 원하는 작업을 여러 개의 대화로 나누어 동시에 실행할 수 있으며, 이를 통해 효율적으로 여러 작업을 처리할 수 있다. 또한, 사용자 맞춤 설정을 통해 자주 사용하는 사이트에서의 설정을 기억하고, 반복적인 작업을 빠르게 처리할 수 있도록 돕는다.


사용자와의 상호작용 강화


Operator는 사용자가 제어할 수 있도록 설계되어 있다. 사용자는 언제든지 원할 때 브라우저 작업을 직접 제어할 수 있다. 또한, 로그인 정보나 결제 정보를 입력해야 할 때는 Operator가 자동으로 사용자의 조치를 요청하며, 민감한 정보를 다룰 때는 해당 정보를 수집하거나 캡처하지 않는다.


안전성과 개인정보 보호


Operator의 사용은 세 가지 보호 층을 통해 안전하게 이루어진다.  

작업 제어: 중요한 정보를 입력할 때마다 사용자에게 제어를 요청하여, 민감한 데이터가 처리될 때 AI가 자동으로 이를 다루지 않도록 한다.

사용자 확인: 큰 결정을 내리거나 작업을 완료하기 전에 사용자의 승인을 요청한다.

감시 모드: 민감한 사이트에서는 사용자가 직접 감독할 수 있는 기능을 제공하여 실수를 방지한다. 이때 의심스러운 웹사이트 처리 Operator는 악성 웹사이트가 의도적으로 오퍼레이터를 속이려 할 때 이를 인식하고 방어할 수 있도록 설계되었다. 예를 들어, 숨겨진 프롬프트나 악성 코드, 피싱 시도를 감지해 차단한다. 또한, '모니터 모델'을 통해 의심스러운 행동을 감지하고, 이상 징후가 있을 경우 작업을 멈추기도 한다. 이를 통해, Operator는 사용자와 기업의 안전을 보장하며 악성 행위자들이 시스템을 악용하는 것을 예방할 수 있다.

또한, 데이터 보호를 위해 사용자는 브라우저 데이터를 한 번의 클릭으로 삭제할 수 있으며, 사용자 정보는 AI 학습에 사용되지 않도록 설정할 수 있다.



한계점과 향후 계획 


Operator는 아직 초기 연구 미리보기 단계에 있으며, 복잡한 인터페이스에서 예를 들어 슬라이드쇼 생성이나 일정 관리 등에서 어려움을 겪고 있다. 하지만 사용자의 피드백을 바탕으로 지속적으로 개선되고 있으며, 그 정확성, 신뢰성, 안전성을 높여가고 있다.

OpenAI는 Operator의 기능을 더욱 확장하고, 향후 API를 통해 CUA 모델을 외부 개발자들이 사용할 수 있도록 할 예정이다. 또한, 더 복잡한 작업 흐름을 처리할 수 있도록 개선하며, Plus, Team, Enterprise 사용자들에게 보다 넓은 범위로 제공할 계획이다. 이로써 실시간 및 비동기적 작업 실행을 원활하게 지원할 수 있게 된다. 이로써 OpenAI의 Operator는 웹에서의 다양한 작업을 자동화하고, 사용자에게 보다 효율적이고 안전한 경험을 제공하는 혁신적인 도구로 자리잡을 것으로 보인다.


한국 출시일 미정


현재 '오퍼레이터'는 미국에서만 출시되었으며, 한국을 포함한 다른 국가에서는 아직 이용할 수 없다. 오픈AI는 "곧 다른 국가에서도 서비스가 될 것"이라고 밝혔지만, 유럽 지역은 규제 등의 이유로 출시가 지연될 수 있다고 전했다. 따라서 현재로서는 한국에서 '오퍼레이터'를 사용할 수 없으며, 향후 출시 일정에 대한 공식 발표를 기다려야 한다.



<refer>

https://openai.com/index/introducing-operator/


작가의 이전글 AB테스트 실제 사례: 틱톡, 핀터레스트, 금융앱

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari