에이전트 모드
Operator에서 ChatGPT Agent로 2025년 1월, OpenAI는 Operator라는 이름의 실험적 에이전트를 공개했다. Operator는 기존의 ChatGPT가 단순히 텍스트로 답변에서 직접 웹페이지를 조작하고, 마우스를 움직이며, 입력 필드를 채우는 ‘행동하는 AI’의 첫 버전이었다. 당시 Operator는 시각 기반 강화학습 모델인 CUA(Computer-Using Agent)를 통해 화면을 ‘눈으로 보고’ 행동을 선택했다. 그 결과로 OSWorld 38.1%, WebArena 58.1%, WebVoyager 87%의 성공률로 당시 웹 자동화 분야의 새로운 기준을 세웠다.
한 달 뒤 등장한 Deep Research는 전혀 다른 방향으로 확장된 기능이었다. Operator가 행동(Acting)에 집중했다면, Deep Research는 정보 탐색과 근거 기반 분석을 목표로 했다. Deep Research는 수백 개의 웹페이지를 찾아 출처를 비교하고, 상충된 정보는 필터링하며, 최종적으로 인용이 포함된 보고서를 생성한다. 사용자들은 “몇 시간 걸리던 조사 업무를 수십 분 내에 끝낼 수 있다”고 평가했다. ‘지식 노동’을 지원하는 첫 번째 LLM 기반 에이전트이다.
2025년 7월, OpenAI는 Operator와 Deep Research를 완전히 통합한 ChatGPT Agent를 발표했다.
이제 에이전트는 다음과 같은 완전한 작업 흐름을 수행한다. 목표 설정 계획 수립 도구 선택 실행 검증 결과 산출 ChatGPT Agent는 가상 컴퓨터 환경에서
텍스트 브라우저·시각 브라우저·Python 실행기·스프레드시트·슬라이드 생성기 등 다양한 도구를 유기적으로 조합한다. 사용자는 “경쟁사 3곳 리서치해 슬라이드로 정리해줘” 한 줄만 말하면 검색, 분석, 정리, 시각화까지 한 번에 끝난다. 성능으로 ‘일을 처리하는 정확도’에서도 뚜렷한 향상을 보였다. 복합적인 도구 사용 능력이 향상된 결과다.