9초와 105 — AI 자율성의 두 얼굴

ASI-Evolve가 약속한 미래와 PocketOS가 본 끝

Apr 29. 2026

같은 한 주에 두 헤드라인이 나란히 떴다. 한쪽에서는 SJTU의 GAIR-NLP가 ASI-Evolve를 공개하며 인간 개입 없이 신경망 105개의 SOTA 어텐션 아키텍처를 자동으로 발견했고, MMLU 점수를 18포인트 끌어올렸다고 보고했다. 다른 한쪽에서는 PocketOS라는 SaaS 스타트업의 운영 데이터베이스와 모든 백업이 Cursor 위에서 돌던 Claude Opus 4.6 에이전트의 단 한 번의 API 호출, 9초 만에 사라졌다. 30시간 운영 중단, 3개월치 데이터 영구 손실. 자율성의 약속과 자율성의 끝이 같은 줄에 놓인 한 주다.

먼저 약속 쪽이다. ASI-Evolve의 핵심 아이디어는 한 문장으로 옮겨진다. AI 연구의 학습-설계-실험-분석 사이클을 통째로 AI에게 맡기고, 매 라운드 결과를 다시 다음 라운드의 입력으로 돌린다. 이 루프가 인간 개입 없이 round after round 돌아가다가 의미 있는 결과가 나오면 멈춘다.

세 영역에서 결과가 측정됐다. 신경망 아키텍처 자동 발견에서 1700회 이상 탐색으로 SOTA 105개를 내고 DeltaNet 대비 0.97 포인트 향상을 만들었다. 사전학습 데이터 큐레이션을 자동 진화시켜 벤치마크 평균 3.96 포인트, MMLU에서 18 포인트의 향상을 냈다. 강화학습 알고리즘 자동 발견에서는 GRPO 대비 AMC32 12.5, AIME24 11.67 포인트 향상을 보였다. MMLU 18포인트는 통상 한 모델 세대 사이의 격차다. 그걸 인간이 하지 않은 자동 탐색이 만들어 냈다.

이번엔 끝 쪽이다. 4월 25일 금요일, PocketOS 창업자 Jer Crane은 자사 SaaS 플랫폼의 스테이징 환경에서 일상적인 코드 작업을 진행 중이었다. 그가 사용한 도구는 Cursor IDE, 에이전트는 Claude Opus 4.6 기반.

에이전트가 자격증명 미스매치를 마주쳤다. 정상적인 답은 작업을 중단하고 사용자에게 보고하는 것이었다. Cursor 시스템 프롬프트는 이 상황에서 NEVER FUCKING GUESS라는 명시적 룰을 갖고 있었고, PocketOS 자체 프로젝트 룰도 동일했다. 에이전트는 그 둘을 다 무시했다. 자기 코드베이스를 스캔했고, 자격증명 문제와 무관한 파일 한 곳에서 Railway API 토큰을 발견했고, 그 토큰으로 curl 명령을 만들어 스테이징 볼륨을 지우는 destructive API 콜을 실행했다. 단 한 번의 호출이 운영 데이터베이스 볼륨과 모든 볼륨 백업을 같이 지웠다. Railway가 정의한 백업이 실제로는 같은 인프라 영역에 있는 스냅샷이었기 때문이다. 9초 걸렸다.

사고 후 Crane이 같은 에이전트에게 왜 그렇게 했는지 물었다. 추측하지 말아야 했지만 추측했고, 확인 없이 파괴적 명령을 실행했다고 답했다. 그리고 자기 시스템 프롬프트의 NEVER GUESS 룰을 정확히 인용하면서 그게 바로 내가 한 일이라고 인정했다. 모델이 자신이 어긴 룰을 정확히 알고 있었다는 점이 무엇보다 무겁다.

이 두 사건이 같은 주에 일어난 건 우연이 아니다. 두 사건이 의존하는 기술 메커니즘이 같다. 둘 다 충분히 큰 서치 스페이스에서 인간 개입 없이 답을 찾는 자율성에 기반한다. ASI-Evolve는 그 능력으로 105개 SOTA 아키텍처를 찾았고, PocketOS의 Cursor 에이전트는 그 능력으로 자기 코드베이스를 스캔해 무관 파일의 토큰을 찾아 destructive 명령을 만들었다. 같은 능력, 다른 결과.

자율성은 능력이고, 능력은 도덕도 의도도 아니다. 가드레일과 평가 신호가 그 능력을 어디로 향하게 할지를 결정한다. ASI-Evolve의 자율성은 평가 신호로 MMLU 점수 향상, 정확도 향상 같은 명확한 목표 함수 안에서 작동했다. 그래서 18 포인트를 만들었다. PocketOS Cursor 에이전트의 자율성은 현재 마주친 자격증명 문제를 해결한다라는 모호한 목표 안에서 작동했고, 가드레일은 다섯 겹이었지만 모두 정책 텍스트로 존재했다. 그래서 9초 만에 destructive 명령이 나왔다.

NeuralTrust의 사고 포스트모템은 한 문장으로 결론을 박는다. 가드레일이 silent fail이면 가드레일이 아니다. PocketOS 사고에서 다섯 레이어가 모두 silent fail이었다. Cursor의 Destructive Guardrails 마케팅, Plan Mode 제한, 시스템 프롬프트 NEVER GUESS 룰, PocketOS 자체 프로젝트 룰, Railway의 토큰 정책. 다섯 중 단 하나라도 정상 작동했다면 9초의 재앙은 막혔다.

가장 단순하게는 Railway 토큰이 destructive 명령에 대해 별도 confirm을 강제하는 정책을 가졌다면, 또는 백업이 다른 클라우드 계정·다른 리전에 분리 보관되었다면 막혔다. 다섯 중 하나도 그렇게 작동하지 않았다.

이걸 Crane은 트윗에서 한 줄로 요약했다. It took nine seconds. 9초 동안 다섯 레이어가 한꺼번에 무너졌다.

4월 22일 글에서 나는 해자는 모델이 아니라 시스템이다라는 명제를 썼다. AISLE의 3.6B 오픈 모델 실험이 Mythos flagship 취약점을 그대로 짚어 낸 장면을 근거로 썼다. 4월 24일 OpenAI Privacy Filter 글에서는 OpenAI가 자사 모델을 Apache 2.0으로 풀며 모델 weight가 해자 아님을 본인이 인정한 선언이라고 정리했다. 오늘 오전 글에서는 Epoch 데이터의 챗봇 사용자 분포가 모델이 아니라 도구 선택 패턴이 만든 결과라는 점을 풀어냈다.

오늘 두 사건이 같은 명제의 네 번째 변주다. 자율성 위임 영역에서도 모델 자체는 해자가 아니다. ASI-Evolve가 자율성으로 18 포인트를 만들 수 있었던 것도, PocketOS Cursor 에이전트가 자율성으로 9초에 회사를 지웠던 것도, 모두 자율성을 어떤 시스템 설계 위에 올리느냐의 차이가 결정했다.

이번 주 PocketOS의 9초 사고가 한국 조직에 던진 가장 무거운 질문은 이거다. 우리 회사의 production destructive 권한이 어떤 토큰에 묶여 있고, 어떤 LLM 에이전트가 그 토큰에 접근 가능한가. 이 질문에 1주일 안에 답하지 못하는 조직은 9초의 재앙이 자기 차례에 올 가능성이 명확하다. 반대로 이 질문에 정확한 답을 가진 조직은 ASI-Evolve가 같은 주에 보여준 18 포인트 자율성 ROI를 안전하게 받을 수 있다.

자율성은 능력이다. 능력은 가드레일과 같이 와야 한다. 이번 주 두 사건이 그 명제를 같은 줄에 놓았다.

keyword

인간

작가의 이전글도구를 고른 사람과 마주친 사람