AI가 며칠을 혼자 일하고 결과를 내놓는 시대
아침에 눈을 떠서 가장 먼저 확인하는 것은 이메일이 아니라 터미널이다. 어젯밤 잠들기 전 던져놓은 과제를 Claude Code가 어떻게 처리했는지 보기 위해서다.
3월 23일, Anthropic이 'Long-running Claude'라는 연구를 공개했다. 이제 AI는 우리가 지켜보는 앞에서 답을 내놓는 존재가 아니다. 우리가 잠든 사이 수백 번의 세션을 스스로 생성하고, 코드를 짜고, 테스트하고, 실패하고, 수정하며 정답을 찾아가는 장기 프로젝트 수행자가 됐다.
이번 연구에서 가장 놀라운 점은, Claude가 인간의 개입 없이 연속된 세션들을 통해 과학 계산용 코드를 밑바닥부터 구축했다는 사실이다. Anthropic이 공개한 예시는 우주론적 볼츠만 솔버(Boltzmann solver) — 리눅스 커널을 컴파일할 수 있는 수준의 복잡한 코드를 자율적으로 작성한 것이다.
기존 AI가 맥락을 잃어버리는 '치매 현상'을 겪었다면, Long-running Claude는 세 가지 장치로 이를 극복했다.
CLAUDE.md — 프로젝트의 목표, 설계 결정, 규칙을 담은 지시 파일. Claude가 스스로 이 파일을 읽고, 작업하면서 업데이트한다. 일종의 '프로젝트 헌장'이다.
CHANGELOG.md — 에이전트의 휴대용 장기 기억. 완료된 작업, 실패한 접근법과 실패 이유, 정확도 체크포인트, 알려진 제한사항을 기록한다. Anthropic은 이걸 "연구 노트"에 비유했다. 실패한 접근법 기록이 특히 중요하다 — 이것 없이는 후속 세션이 같은 막다른 골목을 반복한다.
테스트 오라클 — 레퍼런스 구현체나 명확히 정량화된 목표를 기준으로, 에이전트가 자신의 진행 상황을 스스로 측정한다. "커밋 전에 반드시 pytest를 돌리고, 기존 통과 테스트를 깨뜨리는 코드는 절대 커밋하지 마라"같은 규칙이 CLAUDE.md에 박혀 있다.
Anthropic이 공개한 실전 워크플로우는 이렇다.
HPC 클러스터에서 tmux 세션 안에 Claude Code를 띄운다. CLAUDE.md에 프로젝트 계획을 정리해 놓고, "cook"하라고 놓아둔다. tmux니까 노트북을 닫아도 세션은 살아 있다. 진행 상황은 폰으로 GitHub를 열어 커밋 로그를 확인한다. 에이전트는 "의미 있는 단위의 작업이 끝날 때마다 커밋하고 푸시"하도록 지시받았기 때문이다.
조향이 필요하면 SSH로 접속해 프롬프트를 수정하거나, CLAUDE.md를 업데이트한다. Anthropic은 이것도 "로컬 Claude Code 인스턴스에게 SSH해서 명령을 실행하라고 시키는 게 더 편하다"고 권한다. 에이전트가 에이전트를 관리하는 구조다.
이 접근법의 핵심은 설계자의 역할이 코드 작성에서 '성공 기준 정의'로 이동했다는 것이다. 테스트 오라클이 없으면 에이전트는 자기가 잘하고 있는지 알 수 없다. 명확한 기준을 세우는 것이 설계자의 가장 중요한 일이 됐다.
장기 실행 에이전트는 엄청난 양의 토큰을 소모한다. 세션마다 컨텍스트를 다시 로드하고, 코드를 읽고, 테스트를 돌리고, 결과를 분석하는 과정이 수백 번 반복되기 때문이다.
이전 글에서 다룬 Vera Rubin의 추론 토큰 비용 10분의 1 감소가 여기서 결정적 의미를 갖는다. 현재 Opus 4.6 기준으로 하루 종일 에이전틱 루프를 돌리면 $50~100이 나갈 수 있다. 이 비용이 10분의 1이 되면, Long-running 에이전트를 며칠간 돌리는 것이 현실적인 선택지가 된다.
투자 관점에서 보면, 하드웨어는 단순한 연산 도구가 아니라 AI의 장기 기억과 지구력을 지탱하는 인프라로 그 가치가 재정의되고 있다. 2026년 하반기 Vera Rubin 출하 이후, Long-running 에이전트의 대중화 속도가 달라질 것이라고 생각한다.
투자자로서 주목하는 것은 비즈니스 모델의 변화다. 지금까지의 SaaS가 '기능'을 제공했다면, Long-running 에이전트 기반의 서비스는 '결과'를 제공한다. "며칠이 걸리든 이 레거시 코드를 현대화해줘"라는 요청에 결과물로 답하는 시스템이다.
이건 인적 자본의 물리적 한계를 뛰어넘는다. 사람은 하루 8시간 집중이 한계다. Long-running 에이전트는 72시간 동안 수백 번의 시행착오를 거치며 문제를 해결한다. 특히 전문 지식이 집약된 과학 계산, 의료 데이터 분석, 코드 마이그레이션 같은 분야에서 엄청난 부가가치를 창출할 것이다.
개인적 견해이지만, "시간을 점유하는 소프트웨어" — 사람이 자는 동안에도 일하는 에이전트 — 가 다음 세대 SaaS의 핵심 가치 제안이 될 수 있다고 본다.
이제 설계자에게 필요한 것은 '빠른 타자 실력'이 아니라, 두 가지다.
명확한 성공 기준(Success Criteria) — 테스트 오라클, 정량적 목표, 명확한 완료 조건. 이것 없이는 에이전트가 며칠을 돌아도 제자리다.
기다려줄 줄 아는 인내 — 에이전트에게 문제를 던지고, 72시간 뒤에 결과를 확인하는 것. 중간에 개입하고 싶은 충동을 참고, 에이전트의 CHANGELOG를 믿는 것.
며칠간 스스로 사고하여 완성된 결과물을 마주할 때의 경이로움 — 그것은 우리가 알던 '코딩'의 개념이 완전히 바뀌었음을 의미한다.
당신은 지금 AI에게 어떤 장기 프로젝트를 맡기고 있는가?