에이전트 모델 설계 기반 모델
Opus 4.5가 나온 게 작년 11월이었다. 3개월 만에 4.6이 나왔다. Anthropic의 2026년 첫 메이저 모델인데, 이번에는 분위기가 좀 다르다.
그동안 AI는 도구였다. 좋은 도구였지만 도구였다. 질문하면 답하고, 시키면 하고, 대화가 끝나면 거기서 끝이었다. Opus 4.6은 이 구도를 바꾸는 업데이트다. 숫자만 올라간 게 아니라 쓰는 방식이 바뀌었다.
핵심은 세 가지다 — Adaptive Thinking(사고 깊이 자동 조절), Agent Teams(다수 에이전트 병렬 작업), Context Compaction(대화 자동 압축). 각각이 실제로 뭘 바꾸는지 정리해본다.
컨텍스트가 5배로 늘었다는 건, 이전에는 넣을 수 없었던 양의 코드나 문서를 한 번에 넣을 수 있다는 뜻. 출력이 2배가 된 건 긴 사고(extended thinking)에 더 많은 토큰을 더 같은 가격으로 쓸 수 있게 됐다.
하지만 진짜 달라진 건 이 숫자 위에 얹은 기능에 있다.
1. Adaptive Thinking — 사고 깊이를 알아서 정한다
이전 Opus에서는 extended thinking을 쓰려면 이렇게 했다.
thinking: { type: "enabled", budget_tokens: 10000 }
사용자가 직접 사고 깊이를 숫자로 지정해야 했다. 문제는 적절한 budget을 알 수가 없다는 거다. 너무 적게 주면 얕게 생각하고, 너무 많이 주면 느려진다. 매번 시행착오를 반복하게 된다.
Opus 4.6은 이걸 바꿨다.
thinking: { type: "adaptive" }
모델이 문제를 보고 스스로 판단한다.
간단한 질문에는 바로 답하고, 복잡한 문제에는 깊게 판다.
effort 파라미터로 전반적인 강도를 설정할 수도 있다. 기존 budget_tokens 방식은 deprecated(곧 없어지는 기능)로, 아직 동작하긴 하지만 향후 모델에서 제거될 예정이다.
비유하면 수동 기어에서 자동 기어로 바뀐 것. 사용자가 변속에 신경 쓸 필요가 없어졌다.
2. Agent Teams — 여러 에이전트가 동시에 작업한다
지금까지 Claude Code든 API든 에이전트는 하나였다. 하나가 순서대로 파일 읽고, 코드 쓰고, 테스트 돌렸다. 프로젝트가 커지면 여기서 병목이 생긴다.
Agent Teams은 이 구조를 바꾼다. 여러 에이전트가 태스크를 나눠서 동시에 작업한다. 예를 들어 프론트엔드 리팩토링이라고 하면, 에이전트 A가 컴포넌트 구조를 분석하는 동안 에이전트 B는 스타일 시스템을, 에이전트 C는 테스트 코드를 각각 맡는다.
독립적으로 작업하면서 필요할 때 조율하는 구조다.
이게 되려면 컨텍스트 공유와 상태 관리가 필요한데, 1M 컨텍스트 윈도우가 그 인프라 역할을 한다.
3. Context Compaction — 대화를 까먹지 않는다
한 대화 창으로 쭉 대화를 해본 사람은 안다. 어느 순간 모델이 앞에서 한 말을 잊는다. 컨텍스트 윈도우 한계에 다다르면 어쩔 수 없이 새 대화를 시작해야 했다.
Context Compaction은 서버 측에서 이전 대화를 자동으로 요약·압축한다. 핵심 정보는 유지하면서 불필요한 부분을 덜어낸다. 결과적으로 대화 끊김이 거의 없어지고, 장기 프로젝트를 한 세션에서 처음부터 끝까지 처리할 수 있게 된다.
Agent Teams와 Context Compaction이 합쳐지면, AI가 "질문에 답하는 도구"에서 "프로젝트를 같이 하는 동료"로 바뀐다. 숫자가 아니라 방식이 바뀐 거다. 그게 Opus 4.6의 핵심이라고 볼 수 있다.
대부분 올랐다. Terminal-Bench(에이전트 코딩)에서 역대 최고를 찍었고, 실제 업무 시나리오(OSWorld)에서도 큰 폭으로 올랐다. 금융 분석(Finance Agent)에서는 1위다.
다만 SWE-bench verified와 MCP Atlas는 소폭 떨어졌다. 모델 설계에서 트레이드오프가 있었다는 뜻이다.
에이전트 작업이나 장기 맥락 처리에는 강해졌지만, 단일 코드 패치 같은 작업에서는 소폭 후퇴한 셈이다. 올라간 벤치마크만 보면 안 되고, 뭐가 내려갔는지도 같이 봐야 한다.
벤치마크가 올라간 건 좋은데, 기존 코드가 그대로 돌아간다는 보장은 없다. Opus 4.6에는 API 수준의 브레이킹 체인지가 몇 가지 있다.
1. Assistant Prefill 제거.
지금까지 assistant 메시지를 미리 채워서 응답 형식을 유도하던 패턴이 Opus 4.6에서 막혔다. prefill을 보내면 400 에러가 난다. 기존 코드에서 이 패턴을 쓰고 있었다면 즉시 수정해야 한다.
2. output_format → output_config.format.
구조화 출력(structured outputs)의 파라미터 위치가 바뀌었다. 기존 output_format 은 아직 동작하지만 곧 사라질 방식이다. 새 코드에서는 output_config.format 을 써야 한다.
3. thinking: enabled → adaptive.
위에서 설명한 대로 thinking: { type: "enabled", budget_tokens: N } 은 곧 사라진다. thinking: { type: "adaptive" } 로 전환해야 한다.
Opus 4.6은 스펙이 올라간 업데이트가 아니다. 인프라 모델에서 에이전트 모델로 넘어간 거다.
컨텍스트 1M, 출력 128K는 기반이다. Adaptive Thinking, Agent Teams, Context Compaction은 그 위에서 달라진 사용 방식이다.
숫자만 보면 "좀 더 좋아졌네" 정도로 보일 수 있다. 근데 실제로 써보면 안다. 프로젝트 하나를 처음부터 끝까지 한 세션에서 돌릴 수 있고, 여러 에이전트가 동시에 작업하고, 모델이 알아서 필요한 만큼만 생각한다.