Opus 4.7 출시
"가장 어려운 코딩 작업을 감독 없이 맡길 수 있는 수준에 도달한 모델."
Anthropic이 공식 메시지로 내건 표현이 이거다 — "the hardest coding work—the kind that previously needed close supervision."
성능 벤치가 아니라 '신뢰도'가 핵심 변화다.
공식 공지에 실린 28개 파트너사 증언 중 핵심:
특히 눈여겨볼 3가지 평가:
Replit: "동일 품질을 더 낮은 비용으로 달성. 기술 토론 중에 사용자에게 반박하면서 더 나은 결정을 돕는다."
Vercel: "시스템 코드 작업 시작 전에 **증명(proof)**까지 한다. 이전 Claude에 없던 새로운 행동."
Genspark: "루프 저항성 + 일관성 + 우아한 에러 복구. 루프 없음이 가장 중요하다. 무한 루프 도는 모델은 컴퓨트 낭비이자 사용자 차단 요인."
이 세 인용은 "더 맡길 수 있다"의 실체를 보여준다.
긴 변 2,576px까지 처리 (약 3.75 메가픽셀, 이전 대비 3배 이상)
API 파라미터가 아닌 모델 레벨 변경 — 그냥 보내면 자동으로 고해상도 처리
불필요하면 사용자가 미리 다운샘플링할 수 있음 (토큰 절약)
왜 중요한가:
조밀한 스크린샷에서 글자가 읽힌다
복잡한 다이어그램의 선 관계가 살아난다
컴퓨터 사용 에이전트의 화면 해석 정확도 대폭 상승
Solve Intelligence 평가: "화학 구조, 기술 다이어그램 해석력 크게 개선. 특허 워크플로우에 적용 중."
공식 공지가 4가지를 강조한다:
Finance Agent evaluation: SOTA
GDPval-AA(제3자 경제적 가치 지식 노동 평가): SOTA
금융 분석가로서 4.6보다 효과적 — 더 엄격한 분석·모델링, 프로페셔널한 프레젠테이션, 태스크 간 통합성
변호사/회계사/컨설턴트 업무 영역 전반에서 강화
공식 공지 원문: "여러 세션에 걸친 긴 작업에서 중요 노트를 기억하고, 그 덕에 새 작업이 적은 사전 컨텍스트만 필요로 한다."
이 기능은 Claude가 파일 시스템을 메모리처럼 쓰도록 설계됐다. vault가 AI 에이전트 공통 메모리로 작동하는 구조와 정확히 맞물린다.
기존: low / medium / high / max
추가: xhigh (high와 max 사이)
Claude Code 기본값이 모든 플랜에서 xhigh로 상향
공식 권장: "코딩/에이전트 용도면 high 또는 xhigh부터 시작"
API에서 토큰 지출 상한을 미리 걸 수 있다. "이 작업에 N만 토큰까지만 써줘" 형태의 가이드. 장시간 에이전트 작업에서 비용 폭주 방지.
/ultrareview
슬래시 명령. 변경사항을 읽고 "세심한 리뷰어가 잡아낼 법한" 버그·설계 이슈를 플래그.
Pro/Max 사용자 무료 3회 제공.
중간 권한 확인 없이 Claude가 결정. 장시간 작업 중단 없이 진행. "모든 권한 건너뛰기"보다 덜 위험한 중간 옵션.
공식 공지는 안전성에 대해 균형 잡힌 서술을 했다. 맹목적 홍보가 아니다.
개선된 점:
Honesty (정직성)
악의적 프롬프트 인젝션 저항력
약해진 점:
통제 물질(약물 등)에 대해 지나치게 상세한 피해 감소 조언을 주는 경향
정렬성 평가 결과 (원문 그대로):
"largely well-aligned and trustworthy, though not fully ideal in its behavior" (대체로 잘 정렬되고 신뢰할 만하나, 행동이 완전히 이상적이진 않음)
중요한 서열: 자동화된 행동 감사 평가에서 오정렬 행동 점수는:
Mythos Preview (최저) < Opus 4.7 < Opus 4.6 ≈ Sonnet 4.6
Mythos Preview가 여전히 Anthropic이 훈련한 가장 잘 정렬된 모델이다. 역설적으로, 가장 강력한 모델이 가장 안전하다.
Opus 4.7은 지시를 문자 그대로 해석한다.
이전 모델이 "알아서 해석"해주던 모호한 지시들이 이제 글자 그대로 실행된다.
"간단히 정리해줘" → 4.6은 적당히, 4.7은 진짜 최소로
"필요하면 테스트 코드도" → 4.6은 웬만하면 작성, 4.7은 명시 안 하면 생략
"알아서 잘 부탁해" → 4.6은 합리적 추론, 4.7은 추가 작업 거의 안 함
대응: 기존 프롬프트의 모호한 지시어를 구체 조건으로 전면 교체.
공식 공지에 명시된 두 가지:
새 토크나이저로 동일 입력이 1.0~1.35배 토큰 소모
높은 effort에서 더 많이 생각함 — 특히 에이전트 세팅의 후반 턴
하지만 Anthropic의 주장: "우리 내부 코딩 평가에선 전체 effort 레벨에서 토큰 효율이 개선됐다."
즉:
단순 입력 토큰만 보면 최대 35% 증가
하지만 동일 품질 달성에 드는 전체 토큰은 줄어들 수도 있음
파트너사 Hex 평가가 이를 뒷받침: "low-effort 4.7 ≈ medium-effort 4.6"
현명한 대응:
본격 도입 전 실제 트래픽으로 측정
Task Budgets 베타로 상한 설정
effort 레벨을 작업 복잡도별로 구분 사용
공식 공지 각주에 SWE-bench 관련 흥미로운 언급이 있다. "우리의 메모리화 스크린이 일부 문제를 플래그했다. 그 문제들을 제외해도 개선 폭은 유지된다."
즉, 벤치마크 수치 자체에 오염 가능성이 있음을 Anthropic이 선제적으로 고지. 자신의 프로덕션 작업으로 직접 검증하는 것이 여전히 최선.
기본 effort: xhigh (자동으로 상향됨) 단순 수정:high로 내려서 사용 (토큰 절약) 복잡한 리팩토링: xhigh 또는 max 코드 리뷰:/ultrareview (Pro/Max 3회 무료) 장시간 빌드: Auto mode + Task Budget
추천 워크플로우:
계획/설계 — xhigh로 충분히 생각시킴
구현 — xhigh
완성 후 /ultrareview로 검토
이슈 수정은 high
최종 배포 전 /ultrareview 한 번 더
파트너사 Magic Patterns 평가 (공식 인용):
"대시보드와 데이터 인터페이스 구축에 세계 최고 모델. 디자인 감각이 놀라울 정도로 개선됨. 실제로 배포할 수준의 선택을 한다. 이제 내 기본 드라이버."
활용:
레퍼런스 UI 스크린샷을 고해상도로 넣고 재현 지시
와이어프레임 사진 → React 컴포넌트
복잡한 대시보드 레이아웃 생성
가장 큰 개선 영역.
도구 사용 에러 감소 (Notion: 1/3 감소)
장시간 작업 완주율 상승
루프 저항성 개선 (Genspark 평가)
멀티 에이전트 역할 충실도 (Ramp 평가)
툴 실패 상황 회복력
활용:
cron 자동화에 Opus 4.7 투입
다단계 워크플로우 (수집 → 분석 → 리포트)
vault 자동 관리 에이전트
AO 시스템 오케스트레이션 레이어
Finance Agent SOTA — 투자 분석, 재무 모델링에 유리
GDPval-AA SOTA — 경제적 가치 지식 노동 전반
장문 리포트, 계약서 검토, 특허 분석
Databricks OfficeQA Pro: 기업 문서 분석 Claude 중 최강
화학 구조, 기술 다이어그램, 특허 도면 해석 (Solve Intelligence)
컴퓨터 사용 에이전트 (XBOW 기준 98.5%)
복잡한 차트/그래프에서 수치 추출
"알아서 해석"에 의존하던 지시어 찾아서 구체화.
점검 키워드: "간단히" / "적당히" / "필요하면" / "알아서" / "최적으로" / "보통" / "기본적으로"
같은 작업을 4.6과 4.7에서 각각 돌려보고 실측.
입력 토큰: 얼마나 늘었나
출력 토큰: effort별로 얼마 차이 나나
동일 품질 기준 전체 비용: Anthropic 주장대로 개선됐나
Pro/Max면 3회 무료. 안 쓰면 사라진다. 가장 복잡한 PR이나 리팩토링 결과물에 쓸 것.
복잡한 코딩/에이전트/장시간 작업 → Opus 4.7 (xhigh) 일반 코딩/분석/문서 → Sonnet 4.6 빠른 응답/간단한 Q&A → Haiku 4.5 사이버 보안 연구 (합법적 목적)→ Cyber Verification Program 신청 최고 정렬성/안전성 요구 → Mythos Preview (제한적 접근)
출시일: 2026.04.16
모델 ID: claude-opus-4-7
사용 가능: claude.ai, API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry
가격: Input $5 / Output $25 (per 1M tokens) — 4.6과 동일
공식 공지: https://www.anthropic.com/news/claude-opus-4-7
System Card: https://anthropic.com/claude-opus-4-7-system-card
마이그레이션 가이드: platform.claude.com/docs/en/about-claude/models/migration-guide
Cyber Verification Program: claude.com/form/cyber-use-case
4.7은 '더 똑똑한 모델'이 아니라 '더 맡길 수 있는 모델'이다.
Vercel의 증언이 이 변화의 본질을 가장 잘 보여준다:
"시스템 코드에서 작업을 시작하기 전에 **증명(proof)**부터 한다."
이건 더 세게 생각하는 게 아니다. 작업하기 전에 자기 계획을 검증하는 새로운 행동이다.
이 차이는 사용자가 뭘 다시 세팅해야 하는지를 바꾼다:
프롬프트를 정밀하게
effort를 상황에 맞게
비용을 모니터링하면서
파일 시스템 메모리 활용
모델이 업그레이드될 때마다 사용자의 역량도 같이 업그레이드돼야 한다.