클로드 미소스, 1,000개의 제로데이, 그리고 공개할 수 없는 AI
4월 7일, 앤트로픽이 역대 가장 강력한 AI 모델을 발표했다.
동시에, 이 모델을 세상에 공개하지 않겠다고 선언했다.
이상한 일이다. 모델은 완성됐다. 벤치마크는 압도적이다. 수요도 넘친다. 그런데 공개하지 않겠다고 한다. 이유는 하나다. 이 AI가 "너무 잘해서" 위험하다는 것이다.
앤트로픽의 표현을 빌리면, 소프트웨어 취약점을 찾고 악용하는 능력에서, 가장 숙련된 인간을 제외한 모든 사람을 능가하는 수준에 도달했다. 앤트로픽은 이 모델의 이름을 클로드 미소스 프리뷰라고 불렀다.
지금까지 AI 위험은 "미래에 이런 일이 일어날 수 있다"는 경고였다. 미소스는 달랐다. "지금 이 모델이 이것을 할 수 있다"는 현재형 위험이었다. 그래서 공개하지 않기로 했다.
숫자만 보면 이게 왜 위험한지 느낄 수 있다.
코딩 벤치마크 SWE-벤치 Pro에서 53.4%였던 점수가 77.8%로 뛰었다. 절반만 풀던 문제를 4분의 3 이상 풀게 된 것이다. 수학 시험 USAMO에서는 42.3%에서 97.6%로 올랐다. 시험을 겨우 통과하던 수준에서, 시험을 지배하는 수준으로 바뀐 것이다. 보안 벤치마크 CyberGym에서도 66.6%에서 83.1%로 뛰었다. 인류의 마지막 시험이라 불리는 HLE에서도 40%에서 56.8%로 올랐다.
하지만 가장 소름끼치는 건 Firefox 자바스크립트 엔진 테스트다.
이전 모델 Opus 4.6은 수백 번 시도해서 2회 성공했다. 미소스는 같은 테스트에서 181회 성공했다. 거기다 29회의 추가 레지스터 제어까지 달성했다.
2 대 181.
이건 "더 잘한다"가 아니다. "할 수 있게 됐다"에 가깝다. 보안의 관점에서 비유하면, 문을 긁던 존재가 이제 문을 열고 들어와서 집 안을 돌아다니기 시작한 것이다. 열쇠를 찾은 게 아니라, 문 자체를 이해하게 된 것이다.
앤트로픽은 이 모델을 한 달 동안 주요 소프트웨어에 돌려봤다.
결과는 충격적이었다. 1,000건 이상의 심각한 제로데이 취약점이 쏟아졌다. 27년 동안 아무도 찾지 못한 OpenBSD 버그가 발견됐다. 1999년부터 존재했던 구멍이다. 16년 된 FFmpeg 버그도 찾았다. 리눅스 커널과 모든 주요 웹 브라우저에서도 치명적 취약점들이 드러났다.
전문가 198명이 이 결과를 검증했다. 89%가 정확한 심각도 평가였고, 98%가 실제 취약점으로 확인됐다.
그리고 이 취약점들의 99% 이상이 아직 패치되지 않았다.
이것이 앤트로픽이 모델을 비공개로 유지한 가장 직접적인 이유다. 이 도구가 공격자 손에 들어가면, 인터넷의 기반을 구성하는 소프트웨어들이 한꺼번에 무너질 수 있다. 인간 보안 연구자 수백 명이 수년간 해야 할 작업을 AI 하나가 한 달 만에 해치운 것이다.
대신 앤트로픽은 다른 길을 택했다. 프로젝트 글래스윙이라는 이름이었다.
AWS, 애플, 구글, 마이크로소프트, 엔비디아를 포함한 12개 기업이 합류했다. 크라우드스트라이크와 팔로알토 네트웍스 같은 보안 전문 기업도 함께했다. 브로드컴, 시스코 같은 하드웨어 기업과 JP모건체이스, 리눅스 재단까지. 여기에 40개 이상의 오픈소스 조직도 참여했다. 이들에게만 미소스를 제공한다. 방어 목적으로만. 약 1,500억 원(1억 달러) 규모의 크레딧도 함께 제공한다.
전략은 명확했다. 방어자에게 먼저 시간을 주자는 것이다.
모델을 공개하면 공격자도 즉시 접근한다. 비공개로 유지하면서 방어자에게만 주면, 취약점을 먼저 찾고 패치할 시간이 생긴다. 90일 안에 발견 사항과 패치를 공개 보고할 계획이다. 평소에 경쟁하는 회사들이 하나의 테이블에 앉았다. 구글과 마이크로소프트와 AWS가 같은 편이 됐다. 이것만으로도 이 위협이 얼마나 심각한지 알 수 있다.
흥미로운 건 앤트로픽이라는 회사 자체다. 2021년 오픈AI에서 독립할 때부터 "AI 안전"을 내걸었다. 헌법적 AI, 안전 수준 프레임워크, 해석 가능성 연구에서 업계를 선도해왔다. 14개월 만에 매출이 19배 성장했는데도 가장 강한 모델을 공개하지 않기로 했다. "가장 강한 AI"가 아니라 "가장 책임감 있는 AI 기업"을 택한 것이다. 물론 비판도 있다. "너무 위험해서 비공개"라는 말 자체가 강력한 마케팅이라는 시선. 하지만 1,000건의 제로데이와 99%의 미패치 현황은 마케팅이 아니다.
하지만 앤트로픽 스스로도 인정했다. 비슷한 능력의 모델이 다른 곳에서 등장하면, 이 시간차는 사라진다고. 영원한 방패가 아니라 한시적 우위다.
이전 글에서 LiteLLM 공급망 공격을 다뤘다. AI 인프라가 뚫리는 현실이었다. 오토에이전트도 다뤘다. AI가 스스로 진화하는 시대였다. 미소스는 그 시리즈의 세 번째 축이다.
AI 인프라가 공격받고, AI가 스스로 진화하고, 그 진화한 AI가 보안 방패가 된다. 공격과 방어의 도구가 모두 AI가 되는 시대가 열렸다. 인간은 이 순환의 방향을 결정하는 역할로 이동하고 있다.
가장 날카로운 칼이 만들어졌다. 지금은 방어자의 손에 쥐어져 있다. 하지만 같은 날카로움의 칼이 곧 다른 곳에서도 만들어질 것이다.
지금은 방어자가 앞서는 시간이다. 그 시간이 얼마나 갈지는, 다음 프론티어 모델이 나올 때까지다. 아마 그리 길지 않을 것이다.