스펙에서 통제로 — AI 경쟁의 축이 이동하고 있다

60일의 봄, AI 3강 경쟁 지도: 2026년 2~4월 집중 해부

by 조종주

AI 트렌드 리포트 2026 — Vol.007


스펙에서 통제로 — AI 경쟁의 축이 이동하고 있다

60일의 봄, AI 3강 경쟁 지도: 2026년 2~4월 집중 해부


상상플랫폼 스튜디오 | 2026.04.20 (월) 아침 7시 발행 | 심층 리포트


60일의 드라마

2월 19일, Google이 Gemini 3.1 Pro 프리뷰를 공개하면서 시작되었습니다. 추상추론 벤치마크에서 전작 대비 148% 향상이라는 숫자가 업계를 뒤흔들었습니다. 2주 뒤 OpenAI가 GPT-5.4로 응수했고, 3월에는 일주일 만에 12개 이상의 프론티어 모델이 쏟아졌습니다. 4월 7일, Anthropic이 Project Glasswing이라는 이름으로 Claude Mythos Preview를 공개하면서 분위기가 완전히 바뀌었습니다. "너무 위험해서 일반에 공개하지 않는다"는 모델이었습니다. 그리고 4월 16일, Anthropic은 Opus 4.7을 내놓으며 스스로 인정했습니다 — 이 모델은 Mythos보다 약합니다.

60일. 이 기간 동안 AI 3강은 각자의 전쟁을 치렀습니다. 그런데 이 전쟁을 마치고 나서 보면, 경쟁의 규칙 자체가 바뀌어 있었습니다.


visual_vol007_01_timeline.png


Google Gemini 3.1 Pro — Deep Think의 일상화

2월 19일 프리뷰로 공개된 Gemini 3.1 Pro의 벤치마크 수치는 강렬했습니다. ARC-AGI-2(추상추론 벤치마크)에서 77.1%. 전작 Gemini 3 Pro가 31.1%였으니 약 148%의 향상입니다. GPQA Diamond(대학원 수준 다학제 추론)에서 94.3%로, 공개 시점 기준 업계 최고치였습니다.

수치 자체보다 중요한 것은 Google의 전략적 의도입니다. Gemini 3.1 Pro의 핵심은 "Deep Think의 일상화"라 요약할 수 있습니다. 최상위 추론 능력을 특수한 연구용 모델이 아니라 일반 사용자가 접근할 수 있는 가격대(API 입력 기준 $2/M 토큰, Opus 4.6의 절반 수준)로 내린 것입니다.

100만 토큰 이상의 컨텍스트 윈도, 텍스트·이미지·오디오·비디오·파일을 동시에 처리하는 네이티브 멀티모달, 그리고 Google Search와의 직접 연동. Google은 추론 성능, 가격 경쟁력, 멀티모달 통합이라는 세 축을 동시에 밀어넣으며 3강 경쟁의 포문을 열었습니다.


Anthropic — 4.6에서 4.7로, 그리고 Mythos

Anthropic의 60일은 가장 복잡하고, 가장 많은 것을 말해줍니다.

2월에 Claude Sonnet 4.6과 Opus 4.6을 연속 공개하며 Gemini 3.1 Pro에 응수했습니다. 여기까지는 익숙한 벤치마크 경쟁이었습니다. 그런데 4월 7일, 분위기가 완전히 달라졌습니다.

Anthropic이 Project Glasswing을 발표하며 Claude Mythos Preview를 공개한 것입니다. 이 모델은 일반에 출시되지 않았습니다. AWS, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, NVIDIA, Broadcom 등 약 50개 기관에만 선별 제공되었습니다. 이유는 사이버 보안 능력이 지나치게 강력하다는 것이었습니다.

숫자가 그 주장을 뒷받침합니다. SWE-bench Verified에서 93.9%, GPQA Diamond에서 94.6%. 영국 AI 안전연구소(AISI)의 평가에 따르면, Mythos는 2025년 4월 이전에 어떤 모델도 풀지 못했던 전문가 수준 침투 테스트 과제의 73%를 해결했습니다. 32단계로 구성된 시뮬레이션 기업 네트워크 공격 시나리오 "The Last Ones"를 역사상 최초로 완주한 모델이기도 합니다. Firefox 브라우저에서 발견한 취약점을 181개의 실행 가능한 공격으로 무기화했는데, 이전 플래그십이었던 Opus 4.6은 같은 시도에서 2개에 그쳤습니다.

그리고 4월 16일, Anthropic은 Opus 4.7을 일반 공개했습니다. SWE-bench Verified 87.6%, GPQA Diamond 94.2%, 비전 해상도 3배 확대(1568px → 2576px), CursorBench 70%(Opus 4.6은 58%). 14개 보고된 벤치마크 중 12개에서 Opus 4.6을 상회했습니다. API 가격은 Opus 4.6과 동일(입력 $5, 출력 $25/M 토큰)합니다.

그런데 Anthropic은 발표와 함께 공식적으로 인정했습니다 — Opus 4.7은 Mythos Preview보다 "덜 광범위하게 유능하다(less broadly capable)." 벤치마크 차트에서 Mythos가 Opus 4.7 위에 위치한다는 것을 스스로 공개한 것입니다.

이것은 전례 없는 행동입니다. AI 기업이 자사의 가장 강력한 모델을 일반 공개하지 않고, 공개 모델보다 비공개 모델이 더 강하다고 공식 인정한 것입니다.

한편, Opus 4.7 출시 직전에는 Opus 4.6의 성능이 조용히 저하되었다는 사용자 불만이 광범위하게 퍼졌습니다. Axios의 보도에 따르면, AMD의 시니어 디렉터가 GitHub에 "Claude가 복잡한 엔지니어링을 수행할 수 없는 수준으로 퇴보했다"고 공개적으로 비판했습니다. Anthropic이 컴퓨트 자원을 Mythos 쪽으로 돌리기 위해 의도적으로 성능을 낮춘 것이 아닌가라는 추측이 퍼졌고, Anthropic은 이를 부인했습니다.


OpenAI — 연쇄 릴리즈와 대기 중인 'Spud'

OpenAI의 60일은 양으로 승부했습니다. 2월 GPT-5.3 Instant, 3월 5일 GPT-5.4와 Thinking, 3월 17일 mini/nano, 이어서 Pro까지. 7개월 만에 다섯 개의 GPT-5 계열 모델을 내놓았습니다.

GPT-5.4가 이 연쇄의 핵심입니다. 100만 토큰 컨텍스트 윈도, 스크린샷을 해석하고 마우스와 키보드를 직접 조작하는 네이티브 컴퓨터 사용 기능, 실무 태스크 벤치마크 GDPval에서 83%. OSWorld-Verified 데스크톱 태스크 벤치마크에서는 75.0%로 인간 기준선(72.4%)을 처음 넘어섰습니다.

이 수치들은 강력하지만, 2025년 후반부터 Gemini 3.1 Pro와 Opus 4.6에 벤치마크 리더십을 빼앗긴 OpenAI의 초조함이 읽힙니다. "세대 간 도약"(GPT-4 → GPT-5)이 아니라 "세대 내 연쇄 리비전"(5.3 → 5.4 → mini → nano → Pro)으로 전략이 바뀐 것이 그 증거입니다.

그리고 모두가 기다리는 것이 있습니다. 코드명 'Spud'. 3월 24일에 사전훈련이 완료되었고(같은 날 Sora를 폐쇄하고 GPU 자원을 Spud로 돌렸습니다), 알트먼은 "수 주 내" 출시를 시사했습니다. 공동 창업자 그렉 브로크만은 "2년간의 연구, 점진적 개선이 아니다(not incremental)"라 했습니다. GPT-5.5가 될지 GPT-6이 될지는 성능 격차의 크기에 따라 결정될 것으로 보입니다. 4월 17일 현재, Polymarket에서 "4월 30일까지 출시" 확률은 72%입니다.

Spud의 타이밍이 이번 봄 경쟁의 다음 변곡점이 됩니다.


visual_vol007_02_comparison.png


주변부의 흐름 — xAI, Meta, 중국

3강 바깥에서도 의미 있는 움직임이 있었습니다.

xAI는 2월 17~18일에 Grok 4.20 Beta를, 3월 3일에 Beta 2를 출시했습니다. 실시간 X(구 트위터) 데이터 접근이라는 독점적 차별화 지점을 유지하고 있으며, 6조 파라미터 규모의 Grok 5가 2분기에 예고되어 있습니다.

Meta의 움직임은 주목할 만합니다. 4월 8일 공개된 Muse Spark은 전 Scale AI CEO 알렉산더 왕이 이끄는 Meta Superintelligence Labs의 첫 모델인데, 독점(proprietary) 모델입니다. 오픈소스 Llama 패밀리로 업계를 이끌어온 Meta가 독점 모델로 전환한 것은 전략적 분기점입니다. Meta AI 앱은 출시 후 앱스토어 순위가 57위에서 5위로 뛰었습니다.

중국에서는 DeepSeek V4가 대기 중이고, Qwen 계열은 꾸준히 업데이트를 이어가고 있습니다. Vol.003에서 다뤘듯이, Qwen 3.5 9B가 120B 모델을 추월한 효율성 혁명은 중국 진영의 핵심 차별화 전략입니다.

3강과 주변부의 격차가 벌어지고 있는가, 아니면 다극 구도로 재편되고 있는가? 현재로서는 양쪽 모두에 해당합니다. 최상위 벤치마크는 3강이 장악하고 있지만, 특화 영역(xAI의 실시간 데이터, 중국의 비용 효율성)과 생태계 전략(Meta의 오픈소스+독점 이중 노선)은 주변부에도 고유한 자리를 만들고 있습니다.


경쟁의 새로운 축 — "스펙"에서 "통제"로

이 60일의 릴리즈를 벤치마크 점수로만 읽으면, 눈에 띄는 변화가 보이지 않습니다. 더 높은 점수, 더 큰 컨텍스트, 더 낮은 가격. 2023년부터 계속된 패턴의 연장입니다.

그러나 한 걸음 물러서서 보면, 이 봄에 세 가지 변화가 동시에 나타났습니다. 이것이 이번 60일의 진짜 의미입니다.

첫째, Anthropic이 가장 강한 모델을 격리했습니다. Mythos Preview를 약 50개 기관에만 선별 제공하고, 일반 공개 모델(Opus 4.7)이 Mythos보다 약하다는 것을 공개적으로 인정한 것은, "가장 위험한 능력을 가장 먼저 방어에 사용한다"는 선제 대응 전략입니다. Project Glasswing은 주요 OS와 브라우저에서 수천 건의 제로데이 취약점을 발견하여 패치하는 것을 목표로 합니다.

둘째, OpenAI도 비슷한 프레이밍을 채택했습니다. Anthropic의 Mythos 발표에 대응하여 OpenAI도 자사의 차기 모델(Spud)이 "마찬가지로 위험하며, 일반에 공개되지 않을 수 있다"는 신호를 보냈습니다. 보안 전문가 브루스 슈나이어는 Schneier on Security에서 이를 정확히 짚었습니다 — "이것은 매우 성공한 PR입니다." 그러면서도 슈나이어는 인정합니다. 이 PR이 "일어날 필요가 있었던 일을 촉발하고 있다" — 대규모 기관들이 자사 시스템의 보안에 진지하게 관심을 갖기 시작한 것입니다.

셋째, 규제 환경이 이 방향을 강제하고 있습니다. EU AI Act의 발효가 2026년 8월로 다가오고 있고, 미국에서는 Anthropic-국방부 소송(Vol.002, Vol.005에서 추적)이 AI 기업의 용도 통제 권한에 대한 법적 선례를 만들고 있습니다.

이 세 가지를 종합하면 하나의 전환이 보입니다. 경쟁력의 정의가 "얼마나 강한가"에서 "얼마나 안전하게 강할 수 있는가"로 확장되고 있습니다.

물론 이것을 순수하게 읽을 필요는 없습니다. 슈나이어가 지적했듯이, Mythos의 능력이 과장되었을 가능성도 있습니다. 보안 전문가 스타니슬라프 포트의 실험에서는 기존의 저렴한 오픈소스 모델들도 Anthropic이 자랑한 동일한 FreeBSD 취약점을 발견할 수 있었습니다. Cal Newport은 더 직설적으로 Mythos의 위협이 과대포장되었을 가능성을 제기했습니다. 그리고 Anthropic이 Mythos를 발표하기 일주일 전에 Claude Code 소스코드가 유출되었고, 보안 연구자들이 그 코드에서 즉시 심각한 취약점을 발견했다는 사실은 아이러니입니다.

PR 요소와 실질적 책임 요소가 뒤섞여 있습니다. 중요한 것은 그 혼합 자체가 아니라, 경쟁의 언어가 바뀌었다는 사실입니다. 2025년까지 AI 기업은 "우리 모델이 가장 높은 점수를 받았다"고 경쟁했습니다. 2026년 봄, 그 언어에 "우리 모델이 가장 위험하므로 가장 책임 있게 다루고 있다"가 추가되었습니다.


visual_vol007_03_matrix.png


사용자에게 이 속도는 무엇인가

60일 단위로 주요 모델이 갱신됩니다. Opus 4.6이 2월에 나왔는데, 4월에 이미 4.7이 대체합니다. GPT-5.4가 3월에 나왔는데, Spud가 수 주 내에 올 수 있습니다. GitHub Copilot은 이미 Opus 4.7 롤아웃을 시작하면서 4.5와 4.6을 수 주 내에 퇴역시킬 예정입니다.

이 속도 앞에서 사용자의 과제는 "최신 모델을 따라잡는 것"이 아닙니다. 최신 모델은 어차피 금방 다음 모델에 밀립니다. 필요한 것은 다른 종류의 능력입니다.

어떤 작업을 어떤 모델과 협업할 것인가. 코딩 작업에서 Opus 4.7의 SWE-bench 87.6%가 의미하는 것과, 추상추론에서 Gemini 3.1 Pro의 ARC-AGI-2 77.1%가 의미하는 것은 다릅니다. 컴퓨터를 직접 조작해야 하는 자동화에는 GPT-5.4의 네이티브 컴퓨터 사용이 유리합니다. 하나의 AI를 모든 작업에 쓰는 시대가 아니라, 작업에 따라 파트너를 선택하고 그 관계를 설계하는 시대입니다.

그리고 "통제" 축의 부상은 사용자에게도 새로운 질문을 던집니다. Mythos Preview가 50개 기관에만 제공된다는 것은, 같은 AI를 누구나 쓸 수 있는 시대가 끝나고 있을 수 있다는 뜻입니다. 가장 강력한 AI는 가장 많은 돈을 내는 사람이 아니라, 가장 적절한 통제 체계를 갖춘 기관에 먼저 제공됩니다. 접근의 기준이 가격에서 신뢰로 바뀌고 있습니다.

결국 AI는 교체하는 도구가 아닙니다. 새 버전이 나올 때마다 이전 것을 버리고 갈아타는 것이 아니라, 자신의 작업 방식과 AI의 능력 사이의 관계를 지속적으로 재조정하는 것. 도구가 진화할 때마다 사용자도 함께 진화하는 것. 이 60일이 보여준 것은 모델의 성능 향상만이 아닙니다. AI와 함께 일하는 방식 자체가, 이 속도에 맞춰 재설계되어야 한다는 것입니다.


참고 자료

· Anthropic, "Introducing Claude Opus 4.7" (2026.4.16)

· Anthropic, "Project Glasswing" (2026.4.7)

· Axios, "Anthropic releases Claude Opus 4.7, concedes it trails unreleased Mythos" (2026.4.16) · CNBC, "Anthropic Claude Opus 4.7 model Mythos" (2026.4.16)

· Schneier on Security, "On Anthropic's Mythos Preview and Project Glasswing" (2026.4.13)

· Schneier on Security / Globe and Mail, "Mythos Sets the World on Edge" (2026.4.14)

· Scientific American, "What is Mythos and why are experts worried" (2026.4)

· Cal Newport, "Is Claude Mythos 'Terrifying' or Just Hype?" (2026.4)

· Help Net Security, "Anthropic releases Claude Opus 4.7 with automated cybersecurity safeguards" (2026.4.16)

· GitHub Changelog, "Claude Opus 4.7 is generally available" (2026.4.16)

· LLM Stats, "Claude Opus 4.7 vs 4.6: benchmark deltas" (2026.4.17)

· OpenAI Blog, "The next phase of enterprise AI" (2026.4.9)

· FindSkill.ai, "GPT-6 Release Date tracker" (2026.4.17)

· NeuralBuddies, "AI News Recap: April 17, 2026" — AISI Mythos 평가, Muse Spark 등

· NVIDIA Newsroom, "NVIDIA Launches Ising" (2026.4.14)

· Benzinga, "Jensen Huang Just Pulled Quantum Computing Into Nvidia's Orbit" (2026.4.16)


AI 트렌드 리포트 2026 | 매주 월요일·목요일 아침 발행 | 상상플랫폼 스튜디오

매거진의 이전글AI 에이전트의 불편한 성적표