Anthropic이 발표한 Claude 4는 단순히 질문에 대답하는 언어 모델을 넘어, 오랜 시간 동안 스스로 일을 이어갈 수 있는 에이전트 모델로 발전했습니다. 상위 모델인 Claude Opus 4는 몇 분이나 몇 십 분이 아니라, 수 시간 이상 혼자서 작업을 이어가는 능력을 보여주었습니다. 실제로 오픈소스 프로젝트에서 Claude 4는 “리팩토링(refactoring)”을 7시간 이상 자율적으로 수행했습니다. 리팩토링이란, 기존 프로그램의 기능은 그대로 두면서 내부 구조를 깔끔하고 효율적으로 고치는 작업을 말합니다. 집을 새로 짓는 게 아니라, 기존 집의 구조를 정리하고 리모델링하는 것과 비슷하죠. AI가 이런 정리 작업을 장시간 스스로 해냈다는 점은 매우 주목할 만합니다.
Claude 4는 과거 45분 정도밖에 이어가지 못했던 자율 게임 플레이 능력을 확장해, 24시간 동안 포켓몬 게임을 스스로 플레이하는 데 성공했습니다. 이는 단순히 빠른 답변을 주는 모델을 넘어서, 장기간 복잡한 과정을 끊김 없이 수행할 수 있는 자율성을 알 수 있는 사례입니다. 장시간 자율성을 가능하게 한 이유는 하이브리드 추론(hybrid reasoning) 구조에 있습니다. 즉각적인 대답을 하는 빠른 사고 모드와, 더 깊게 생각하며 문제를 푸는 심층 사고 모드를 상황에 따라 오가며, 필요할 경우 외부 도구(예: 웹 검색)도 활용합니다. 여기에 메모리 기능이 추가되어, 파일에서 얻은 중요한 사실을 장기적으로 기억하고 문맥(context, 대화의 흐름과 상황)을 이어갈 수 있습니다. 또, AI가 스스로 생각한 과정을 요약해 보여주는 사고 요약(thinking summary) 기능도 있어, 사용자가 “AI가 어떤 과정을 거쳐 이 답을 냈는지” 확인할 수 있게 해줍니다.
효율성을 강조한 Claude Sonnet 4는 Opus보다 가볍지만, 최대 백만 토큰의 컨텍스트(한 번에 처리할 수 있는 글자·단어 단위)를 다룰 수 있는 실험적 기능을 제공합니다. 이는 한 번에 긴 문서나 거대한 코드베이스도 읽고 이해할 수 있어, 연구나 대형 프로젝트 관리에 특히 유용합니다.