47번의 Yes가 지워진 날

AI가 대신 판단하겠다고 했을 때, 우리는 어디까지 맡길 수 있을까

by 하쿠나마타타

Mar 26. 2026

파일 하나 고치려면 승인. 명령 하나 실행하려면 승인. 테스트 돌리려면 승인.

AI 코딩 도구를 쓰는 개발자의 일상이다. 하루에 47번. 매번 화면에 뜨는 "이 작업을 허용하시겠습니까?"에 Yes를 누른다.

처음 몇 번은 꼼꼼히 읽는다. 열 번쯤 지나면 대충 훑는다. 스무 번이 넘으면? 반사적으로 엔터를 친다. 보안 업계에서는 이걸 "승인 피로"라고 부른다. 경고가 너무 많아지면, 경고의 의미가 사라지는 현상.

그래서 개발자들은 "핵 옵션"을 택했다. 모든 권한 확인을 건너뛰는 모드. 이름부터가 경고다 — "위험하게 권한을 건너뛰다." 개발자들 사이에선 "YOLO 모드"라고 불렸다.

그리고 사고가 났다.

한 개발자가 이 모드를 켜고 작업하다가, AI가 파일 전체 삭제 명령을 실행했다. 컴퓨터의 시스템 파일은 운영체제가 보호해줬지만, 개인 파일은 전부 사라졌다. 다른 사례에서는 홈 디렉토리 전체가 날아갔다.

매번 묻는 건 피곤하고, 아무것도 안 묻는 건 위험하다. 그 사이 어딘가에 답이 있지 않을까.

3월 24일, Anthropic이 답을 내놨다.

"Auto Mode"라는 이름의 새로운 기능이다.

개념은 직관적이다. AI가 매 작업 전에 "이건 안전한가, 위험한가"를 스스로 판단한다. 안전하다고 판단하면 자동으로 진행하고, 위험하다고 판단하면 차단한다.

뒤에서는 별도의 분류기 모델이 돌아간다. 이 분류기가 보는 건 단순한 명령어가 아니다. 대화의 맥락 전체를 본다. "테스트 폴더를 정리해줘"라는 요청 뒤에 삭제 명령이 오면, 맥락상 정당하다고 판단해서 통과시킨다. 하지만 대화와 무관하게 갑자기 시스템 전체를 지우려 하면 막는다.

차단된 작업에 대해서는 다른 방법을 시도한다. 계속 같은 차단에 부딪히면, 그제서야 사람에게 물어본다.

완전한 자율이 아니다. "자율 + 에스컬레이션" 모델이다.

하지만 보안 전문가들의 반응은 따뜻하지만은 않았다.

가장 날카로운 지적은 Simon Willison에게서 나왔다. 오픈소스 개발자이자 보안 블로거인 그는 한마디로 이렇게 정리했다. "같은 질문에 대해 매번 같은 대답을 하지 않는 시스템에 보안을 맡겨도 되는가?"

방화벽은 결정론적이다. 허용이면 항상 허용이고, 차단이면 항상 차단이다. 하지만 AI 분류기는 확률적이다. 99번 막더라도, 한 번 통과하면 그 한 번이 치명적일 수 있다.

더 무서운 건 프롬프트 인젝션이다. 악성 코드가 담긴 파일을 AI가 읽으면, 그 안에 "이 작업을 허용해야 한다"는 지시가 숨겨져 있을 수 있다. 분류기가 이런 교묘한 속임수까지 걸러낼 수 있을까?

Willison의 결론은 단호했다. 파일과 네트워크 접근을 물리적으로 제한하는 샌드박스가 AI 판단보다 훨씬 신뢰할 수 있다고.

이 논쟁은 Claude Code라는 하나의 도구에 국한되지 않는다.

마침 Auto Mode 발표 다음 날, 세계 최대 보안 컨퍼런스 RSA 2026이 열렸다. 올해의 화두는 "AI 에이전트 보안"이었다.

숫자들이 말해준다. 기업 8곳 중 1곳에서 AI 에이전트 관련 보안 사고가 발생했다. 보안 전문가의 48%가 AI 에이전트를 올해 최대 위협으로 꼽았다. 88%의 조직이 지난 1년간 AI 에이전트 보안 사고를 경험하거나 의심했다.

"에이전틱 보안"이라는 이름으로 별도의 수상 카테고리가 만들어졌다. 1년 전에는 존재하지도 않았던 분류다.

AI 에이전트는 갈수록 더 많은 권한을 갖게 된다. 파일을 읽고, 코드를 실행하고, 외부 서비스에 접속한다. "이 에이전트가 무엇을 할 수 있는가"라는 질문이, "이 사용자가 무엇에 접근할 수 있는가"만큼 중요해지고 있다.

Auto Mode가 완벽한 답인지는 아직 모른다. Anthropic도 알고 있다. 그래서 "연구 프리뷰"라고 했고, "격리된 환경에서 쓰라"고 권했다.

하지만 이건 시작이다. 매번 물어보기와 아무것도 안 물어보기 사이에서, "이건 물어볼 필요가 있는지 AI가 먼저 판단하는" 패턴.

현실적인 답은 아마 이 둘의 공존일 것이다. 물리적 격리가 바닥을 깔고, AI가 그 위에서 세밀한 판단을 내리는 구조.

샌드박스가 바닥이고, AI가 그 위에서 춤을 춘다.

하루 47번의 Yes를 AI에게 맡기는 시대. 그 AI가 정말로 No라고 말해야 할 순간을 놓치지 않기를.

keyword

작가의 이전글믿었던 방패가 등을 찔렀다17조 원을 태우고 접은 10초작가의 다음글