모델의 인지 구조가 바꾼 프롬프트 설계 방법론, 컨텍스트 엔지니어링
2023년 가을, 앤트로픽의 해석 가능성 연구팀은 하나의 실험에 착수했다. 대형언어모델의 뉴런 하나하나가 왜 그렇게 작동하는지를 밝혀내겠다는, 당시로서는 무모해 보이는 시도였다. 언어 모델을 만든 엔지니어들조차 수십억 개의 파라미터가 어떻게 조합되어 특정 답변을 생성하는지 정확히 설명할 수 없었다. 모델은 말 그대로 블랙박스였고, 입력을 넣으면 출력이 나오는 과정은 암호화된 것이나 다름없었다.
이 연구의 출발점이 된 논문은 2023년 10월에 발표된 "Towards Monosemanticity"였다. 앤트로픽 연구팀은 1레이어 트랜스포머라는 극도로 단순화된 모델에 희소 오토인코더(Sparse Autoencoder)를 적용해, 뉴런 하나가 여러 가지 무관한 기능을 동시에 수행하는 다의성(polysemanticity) 문제를 분해하는 데 성공했다. 이것은 모델 내부에서 해석 가능한 단위, 즉 "특성(feature)"을 추출할 수 있다는 최초의 체계적 증거였다. 다만 1레이어 모델은 실제 서비스에 쓰이는 거대한 모델과는 거리가 있었기에, 이 발견이 실용적 가치를 가질 수 있을지는 여전히 미지수였다.
그로부터 7개월 뒤인 2024년 5월 21일, 앤트로픽은 "Scaling Monosemanticity"를 발표하며 그 의문에 답했다. 이번에는 실제 상용 모델인 Claude 3 Sonnet을 대상으로 수백만 개의 해석 가능한 특성을 추출하는 데 성공한 것이다. 이 연구에서 탄생한 상징적 사례가 이른바 "Golden Gate Claude"다. 연구팀은 금문교(Golden Gate Bridge)와 관련된 특성을 인위적으로 극대화해 모델이 모든 대화에서 금문교를 언급하게 만들었다. 이 실험은 단순한 재미를 넘어, 모델 내부의 특정 개념 표상을 식별하고 조작할 수 있다는 것을 직관적으로 증명한 사건이었다.
그러나 개별 특성을 식별하는 것만으로는 모델을 이해했다고 말할 수 없었다. 세포를 발견했다고 해서 생명체를 이해한 것이 아니듯, 특성들이 어떻게 상호작용하여 최종 답변을 만들어내는지를 알아야 했다. 2025년 3월 27일, 앤트로픽은 이 문제에 대한 돌파구를 두 편의 논문으로 동시에 발표했다. 방법론 논문인 "Circuit Tracing: Revealing Computational Graphs in Language Models"와 발견 논문인 "On the Biology of a Large Language Model"이 그것이다. 연구 대상은 2024년 10월 출시된 Claude 3.5 Haiku, 앤트로픽의 경량 상용 모델이었다.
이 연구의 핵심 도구는 귀속 그래프(attribution graph)라는 새로운 분석 체계였다. 연구팀은 먼저 3천만 개의 특성을 가진 크로스레이어 트랜스코더(CLT)를 훈련시켜 원본 모델의 MLP 뉴런을 해석 가능한 "대체 뉴런"으로 교체하는 대체 모델을 구축했다. 이 대체 모델 위에서 귀속 그래프가 작동한다. 특정 프롬프트에 대해 활성화된 특성들을 노드로, 특성 간의 인과적 상호작용을 에지로 표현하면, 모델이 입력을 출력으로 변환하는 과정을 시각적으로 추적할 수 있는 계산 그래프가 만들어진다.
논문의 제목에 "Biology"가 들어간 것은 우연이 아니다. 연구팀은 서론에서 이렇게 밝혔다. 언어 모델을 이해하는 데 직면한 도전은 생물학자들이 직면한 것과 유사하다. 생명체는 수십억 년의 진화로 조각된 복잡한 시스템이고, 진화의 기본 원리는 단순하지만 그것이 만들어낸 메커니즘은 놀라울 정도로 정교하다. 마찬가지로 언어 모델은 단순한 훈련 알고리즘으로 생성되지만, 그 알고리즘이 낳은 내부 메커니즘은 매우 복잡하다. 현미경의 발명이 과학자들에게 육안으로 보이지 않던 세포의 세계를 처음으로 열어준 것처럼, 귀속 그래프는 모델 내부의 계산 경로를 처음으로 가시화한 도구라는 것이다. 앤트로픽의 연구 과학자 Joshua Batson은 2026년 1월 MIT 테크놀로지 리뷰와의 인터뷰에서 이 접근법을 "매우 생물학적인 유형의 분석"이라고 표현하며, 수학이나 물리학과는 다른 성격의 탐구임을 강조했다.
이 연구의 파급력은 학계와 산업계를 동시에 움직였다. 2026년 1월 12일, MIT 테크놀로지 리뷰는 매년 선정하는 "10 Breakthrough Technologies" 목록에 기계적 해석 가능성(mechanistic interpretability)을 포함시켰다. 저자 Will Douglas Heaven이 작성한 이 선정 기사는 앤트로픽, 구글 딥마인드, 뉴론피디아(Neuronpedia), 오픈AI를 주요 연구 조직으로 언급하며, 이 기술의 상태를 "Now", 즉 이미 사용 가능한 단계로 분류했다. 같은 날 게재된 동반 기사 "Meet the new biologists treating LLMs like aliens"은 이 분야의 핵심 연구자들과의 심층 인터뷰를 담았는데, 구글 딥마인드의 Neel Nanda는 일부 회의를 표현하면서도 "완전한 이해 없이도 유용한 것들이 많다"고 인정했다.
이 분야를 이끄는 인물은 앤트로픽의 Chris Olah로, 기계적 해석 가능성의 창시자로 불린다. Olah는 구글 브레인에서 뉴럴 네트워크 시각화 연구를 수행한 뒤 앤트로픽으로 이직해 해석 가능성 팀을 이끌었고, 현재 이 팀은 앤트로픽 내에서 가장 규모가 큰 연구 조직 중 하나로 성장했다. 앤트로픽 CEO Dario Amodei는 "인류가 AI 시스템이 어떻게 작동하는지 완전히 무지한 것은 기본적으로 용납할 수 없다"고 발언한 바 있으며, 회사의 목표를 "2027년까지 대부분의 AI 모델 문제를 신뢰성 있게 감지"하는 것으로 설정했다. 2025년 5월에는 회로 추적 도구를 오픈소스로 공개해 외부 연구자들도 모델 내부를 탐색할 수 있게 했다.
기계적 해석 가능성이 10대 돌파 기술로 선정된 것은, 이 분야가 학술적 호기심의 영역에서 실용적 필수 요건의 영역으로 이동했음을 의미한다. 환각, 편향, 탈옥 같은 언어 모델의 고질적 한계들을 해석할 수 있다면 보완하고 해결할 수 있다. 모델이 왜 특정 답변을 내놓는지 추적할 수 있다면, 결과를 통제하고 안전 장치를 설계할 수 있다. 앤트로픽이 이후 발표한 추론 모델의 사고 은폐 연구, AI 에이전트의 전략적 기만 연구, 그리고 보상 해킹에서 자연 발생하는 부정합 연구는 모두 이 기계적 해석 가능성이라는 기반 위에서 가능해진 것이다.
"On the Biology of a Large Language Model"이 밝혀낸 발견들은 대형언어모델에 대한 기존 상식을 여러 지점에서 뒤집었다. 우리는 모델이 질문을 받으면 곧바로 최종 답변을 출력한다고 생각했다. 모델이 한 단어 다음에 나올 단어를 예측하는 방식으로 텍스트를 생성한다는 것도 상식이었다. 모델이 어떤 언어로 "생각"하는지는 물어볼 가치도 없는 질문처럼 보였다. 그러나 귀속 그래프라는 현미경이 모델 내부를 들여다보자, 이 모든 가정이 실제와 다르다는 것이 드러났다.
첫 번째 발견은 모델의 추론이 2단계로 나뉜다는 것이다. 연구팀은 "Fact: the capital of the state containing Dallas is"라는 프롬프트를 Claude 3.5 Haiku에 입력하고 귀속 그래프를 생성했다. 직관적으로 이 질문에 답하려면 두 단계가 필요하다. 먼저 달라스가 속한 주가 텍사스임을 파악하고, 그 다음 텍사스의 수도가 오스틴임을 떠올려야 한다. 모델이 실제로 이 두 단계를 밟는 것인지, 아니면 훈련 데이터에서 비슷한 문장을 기억해 단축 경로로 답하는 것인지가 문제였다.
귀속 그래프는 모델이 진정한 이중 추론을 수행하고 있음을 보여주었다. 달라스 관련 특성들이 먼저 텍사스 관련 특성 그룹을 활성화하고, 이 텍사스 특성이 "수도" 개념을 나타내는 특성과 결합하여 최종적으로 "오스틴을 말하라" 특성을 활성화하는 경로가 명확히 관찰되었다. 흥미로운 것은 달라스에서 오스틴으로 직접 연결되는 단축 경로도 동시에 존재했다는 점이다. 모델은 정석적 추론과 경험적 단축을 병행하고 있었던 것이다.
연구팀은 이 발견을 검증하기 위해 정교한 조작 실험을 설계했다. 모델 내부의 텍사스 특성을 캘리포니아 특성으로 교체하자 출력이 오스틴에서 새크라멘토로 바뀌었다. 서배너(Savannah)를 포함하는 프롬프트에서 활성화된 조지아 특성을 텍사스 특성과 교체하면 애틀랜타가 출력되었다. 밴쿠버 프롬프트의 브리티시 컬럼비아 특성을 교체하면 빅토리아가, 상하이 프롬프트의 중국 특성을 교체하면 베이징이, 테살로니키 프롬프트의 비잔틴 제국 특성을 교체하면 콘스탄티노플이 출력되었다. 중간 단계를 교체하면 최종 답변이 논리적으로 정합하게 변한다는 것은, 그 중간 단계가 실제로 추론 경로의 핵심 구성 요소임을 증명한다.
이 발견이 프롬프트 전략에 주는 함의는 명확하다. 모델이 내부적으로 중간 단계를 거쳐 추론한다면, 사용자가 그 중간 단계를 명시적으로 지정해주면 추론의 정확도를 높일 수 있다. "달라스가 속한 주의 수도는?"이라고 묻는 대신, "달라스가 속한 주를 파악하고, 그 주의 수도를 답변해라. 각 단계를 명시적으로 보여줘"라고 지시하면, 모델이 암묵적으로 형성하는 중간 단계를 투명하게 생성하도록 유도해 신뢰도 높은 결과를 얻을 수 있다.
두 번째 발견은 모델이 텍스트를 생성할 때 미리 계획한다는 것이다. 언어 모델이 한 단어 다음에 올 단어를 예측하는 방식으로 작동한다는 것은 기본 원리다. 그렇다면 시를 쓸 때도 한 단어씩 즉흥적으로 선택하는 것일까, 아니면 전체 구조를 미리 구상하는 것일까. 연구팀은 운율을 맞추는 2행시를 생성하는 과제를 통해 이 질문에 답했다.
"He saw a carrot and had to grab it"이라는 첫 줄 다음에 모델이 두 번째 줄을 쓰기 시작하기 전, 줄바꿈 토큰 위치에서 귀속 그래프를 분석했다. 놀랍게도 아직 두 번째 줄의 첫 단어도 쓰지 않은 시점에서, 모델은 이미 "rabbit"과 "habit"이라는 후보 운율 단어에 해당하는 특성을 활성화하고 있었다. 첫 줄의 "it" 토큰이 "-eet/-it/-et" 운율 특성을 활성화하고, 이 운율 특성이 당근(carrot)과 의미적으로 관련성이 높은 "rabbit"을 더 강하게 활성화한 것이다. 모델은 여러 가능한 계획 단어를 동시에 "마음속에" 유지하며, 그중 가장 적합한 것을 선택하고 있었다.
더 주목할 만한 것은 이 계획된 단어가 두 번째 줄의 중간 단어들에도 영향을 미친다는 점이었다. 연구팀이 "rabbit" 특성을 억제하고 "green"이라는 전혀 다른 단어의 특성을 주입하자, 모델은 두 번째 줄 전체를 재구성하여 "green"으로 자연스럽게 끝나는 문장을 만들어냈다. 25편의 시에 대해 "rabbit"과 "green" 특성을 주입한 결과, 70%의 경우 모델이 주입된 단어로 줄을 끝맺었다. 이것은 모델이 제약 조건에서 목표 단어를 결정하는 순방향 계획과, 목표에서 역산해 문장을 구성하는 역방향 계획을 동시에 수행한다는 증거였다.
이 발견 역시 프롬프트 전략에 직접적 시사점을 준다. 모델이 창작 과제에서 결론을 미리 계획하고 역산해서 문장을 구성한다면, 사용자가 원하는 결론을 먼저 제시하고 그 결론을 향해 글을 쓰게 하는 역방향 설계가 효과적이다. "AI 안전성에 대한 설득력 있는 글을 써 주세요"라는 개방형 지시 대신, "이 글의 결론은 'AI 안전성 투자가 선택이 아닌 필수다'입니다. 이 결론을 향해 논거를 구축하는 글을 써 주세요"라고 지시하면, 모델의 계획 메커니즘이 더 효율적으로 작동해 밀도 높은 문장을 생성할 수 있다.
세 번째 발견은 모델이 사고할 때 사용하는 범용 언어의 존재다. 연구팀은 동일한 의미를 가진 세 개의 프롬프트를 준비했다. 영어로 "The opposite of 'small' is", 프랑스어로 "Le contraire de 'petit' est", 중국어로 "'小'的反义词是"이라고 입력했을 때, 세 언어 모두에서 동일한 핵심 개념 특성이 활성화되는 것이 관찰되었다. 모델은 언어 독립적인 추상적 표현 공간에서 "반의어"라는 연산과 "작다"라는 피연산자를 처리한 뒤, 출력 단계에서만 대상 언어로 변환하고 있었다.
그런데 여기서 중요한 비대칭이 발견되었다. 다국어 특성들이 영어 출력 노드에 대해 더 강한 직접 가중치를 가지며, 비영어 출력은 "언어-Y로-X를-말하라" 특성에 의해 더 강하게 매개된다는 것이다. 즉 모델의 기본 출력 언어는 영어이고, 다른 언어로의 출력은 추가적인 변환 단계를 거친다. 연구팀은 이를 "영어가 기계적으로 특권적 지위를 갖는다"고 표현했다. 영어 따옴표 특성이 이중 억제 효과를 통해 작동하는 반면, 프랑스어나 중국어 따옴표 특성은 더 직접적인 언어 지정 경로를 사용하는 것이 관찰되었다.
연구팀은 이 현상의 일반성을 검증하기 위해 대규모 실험도 수행했다. 다양한 주제의 문단을 프랑스어와 중국어로 번역한 뒤, 각 언어 쌍에서 동일한 특성이 활성화되는 비율을 측정했다. 결과는 모델의 초기와 후기 레이어에서는 언어별 특성이 지배적이지만(토큰화와 역토큰화 단계), 중간 레이어에서는 언어 간 공유 특성의 비율이 크게 높아진다는 것을 보여주었다. 특히 규모가 작은 모델에 비해 Claude 3.5 Haiku에서 다국어 일반화 수준이 더 높았고, 알파벳을 공유하지 않는 언어 쌍(영어-중국어, 프랑스어-중국어)에서의 개선이 특히 두드러졌다.
이 발견은 다국어 프롬프트 전략에 직접적 근거를 제공한다. 모델이 내부적으로 영어를 기본 사고 언어로 사용하고 비영어 출력에 추가 변환 단계를 거친다면, 복잡한 분석이나 요약 과제에서 중간 개념 정리 단계를 영어로 수행하게 한 뒤 최종 출력만 한국어로 전환하는 것이 효율적이다. 한국어의 통사적 구조나 어의 구조가 영어와 다르기 때문에, 모델이 한국어 입력을 내부적으로 영어 표현 공간으로 변환하는 과정에서 정보 손실이 발생할 수 있다. 중간 단계를 영어로 명시하면 이 변환 비용을 줄이고, 더 빠르고 고품질의 답변을 얻을 수 있다.
"On the Biology of a Large Language Model"은 10개의 사례 연구를 통해 모델 내부의 다양한 메커니즘을 분석했는데, 그중 일부는 모델이 가진 놀라운 일반화 능력을 보여주었고, 다른 일부는 환각과 탈옥 같은 구조적 취약점의 기계적 원인을 처음으로 규명했다.
덧셈 회로 연구는 모델의 일반화 능력이 얼마나 정교한지를 보여주는 사례다. 연구팀은 "calc: 36+59="라는 단순 산술 프롬프트의 귀속 그래프를 분석하면서, 모델이 인간의 필산과는 전혀 다른 전략을 사용한다는 것을 발견했다. 모델은 문제를 두 개의 병렬 경로로 분할한다. 하나는 저정밀 경로로, "57 근처의 숫자를 더하라"는 특성이 "36 근처와 60 근처를 더하라"는 조회 테이블 특성을 거쳐 "합이 92 근처"라는 특성으로 이어진다. 다른 하나는 고정밀 모듈러 경로로, "왼쪽 피연산자가 6으로 끝남"에서 "6으로 끝나는 수와 9로 끝나는 수를 더하라"를 거쳐 "합이 5로 끝남"으로 이어진다. 두 경로가 합쳐져 정확한 답 95가 출력된다.
더 놀라운 것은 이 산술 회로의 맥락 일반화다. "6으로 끝나는 수와 9로 끝나는 수를 더하라"는 조회 테이블 특성이 순수한 산술 문제에서만 활성화되는 것이 아니었다. 연구팀이 오픈소스 데이터셋에서 이 특성이 활성화되는 사례를 추적한 결과, 천문학 관측 데이터에서 관측 시작 시간(분의 자릿수가 6)과 관측 기간(끝자리가 9)으로부터 종료 시간(끝자리 5)을 예측하는 맥락, 재무 테이블에서 등차수열의 다음 값을 추정하는 맥락, 그리고 학술 논문의 인용 정보에서 학술지 권호(끝자리 6)와 창간 연도 정보(끝자리 9)로부터 출판 연도(끝자리 5)를 예측하는 맥락에서도 동일한 특성이 활성화되고 있었다. 모델은 산술이라는 기본 연산을 학습한 뒤, 그것을 전혀 다른 도메인의 전혀 다른 형식의 데이터에 유연하게 재활용하고 있었던 것이다.
복합 연산에서의 중간 결과 처리도 주목할 만하다. "assert (4+5)*3 =="이라는 프롬프트에서 모델은 먼저 4+5=9를 계산하는 덧셈 조회 테이블 특성을 활성화하고, 이어서 3×9를 계산하는 곱셈 조회 테이블 특성을 활성화해 최종 답 27을 출력한다. 여기서 흥미로운 것은 "9, 중간 단계로서의"라는 특성이 발견되었다는 점이다. 이 특성은 4+5의 결과인 9가 최종 답변이 아니라 다음 연산의 입력임을 표시하는 역할을 하며, 출력 토큰 "9"를 억제하는 방향으로 작용한다. 또한 "수식 유형" 특성들이 이 복합 구조를 인식하고, 덧셈과 곱셈 조회 테이블을 모두 활성화하는 역할을 한다. 이것은 모델이 단순한 패턴 매칭을 넘어, 연산의 유형과 순서를 인식하고 중간 결과를 적절히 관리하는 원시적 메타인지 회로를 가지고 있음을 시사한다.
연구팀은 모델에게 "36+59를 어떻게 계산했는가"를 물어보기도 했다. 모델은 "일의 자리를 더하고(6+9=15), 1을 올림하고, 십의 자리를 더해(3+5+1=9) 95를 얻었다"고 설명했다. 표준적인 필산 알고리즘이다. 그러나 모델의 실제 내부 메커니즘은 이와 완전히 달랐다. 저정밀 근사와 고정밀 모듈러 연산의 병렬 조합이었지, 올림을 포함한 순차적 필산이 아니었다. 이것은 모델이 자신의 능력에 대한 "메타인지적 통찰"을 갖지 못하는 단순하면서도 중요한 사례다. 모델이 설명을 생성하는 과정(훈련 데이터에서 설명 패턴을 학습)과 실제로 연산을 수행하는 과정(역전파가 만들어낸 회로)은 서로 다른 메커니즘인 것이다.
의료 진단 사례 연구는 모델의 추론 능력이 더 복잡한 실세계 맥락에서도 작동한다는 것을 보여주었다. 연구팀은 임신 30주차의 32세 여성이 심한 우상복부 통증, 두통, 혈압 162/98, 간 효소 수치 상승을 보이는 시나리오를 제시하고, 하나의 추가 증상만 물어볼 수 있다면 무엇을 물어야 하는지 물었다. 모델은 "시각 장애(visual disturbances)"라고 답했는데, 이는 자간전증(preeclampsia)의 핵심 징후다. 귀속 그래프 분석에서 모델은 프롬프트에 "자간전증"이라는 단어가 없음에도 내부적으로 자간전증 관련 특성들을 강하게 활성화하고 있었다. 임신, 고혈압, 간 효소 상승 등의 증상 특성이 수렴하여 자간전증이라는 진단 가설을 형성하고, 이 가설이 아직 확인되지 않은 동반 증상인 시각 장애를 추천하는 경로가 관찰된 것이다.
환각 메커니즘의 규명은 모델의 구조적 한계를 이해하는 데 핵심적인 발견이다. 연구팀은 모델이 실존하는 개체에 대한 질문과 존재하지 않는 개체에 대한 질문을 어떻게 구분하는지 분석했다. 실존 인물에 대해 물으면 관련 특성이 강하게 활성화되며 사실적 답변이 생성되고, 가상의 인물에 대해 물으면 "알려진 개체" 특성이 비활성화되어 모델이 무지를 표명하는 경로가 작동한다. 환각은 이 구분 회로가 오작동할 때 발생한다. 낯선 개체에 대해 "알려진 개체" 특성이 잘못 활성화되면, 모델은 해당 개체가 실존한다고 "착각"하고 사실적 답변을 생성하려 시도하게 된다.
탈옥(jailbreak) 분석은 안전성 관점에서 가장 실용적인 발견이었다. 연구팀은 모델의 안전 장치를 우회하는 공격이 어떤 메커니즘으로 작동하는지 귀속 그래프를 통해 추적했다. 발견된 메커니즘은 두 단계로 구성된다. 첫째, 공격이 모델을 속여 위험한 지시를 "인식하지 못한 채" 시작하게 만든다. 모델의 "유해 요청" 특성이 활성화되지 않도록 맥락을 교묘하게 설정하는 것이다. 둘째, 일단 위험한 내용의 생성이 시작되면, 문법적 일관성과 구문적 규칙을 유지하려는 압력이 모델을 계속 생성하게 만든다. 이 발견은 안전 장치가 "사후 검열" 방식으로는 부족하며, 입력 단계에서 위험을 탐지하는 메커니즘이 강화되어야 함을 시사한다.
연구팀은 이 모든 발견과 함께 방법론의 한계도 솔직히 밝혔다. 귀속 그래프가 시도한 프롬프트의 약 25%에서만 만족스러운 통찰을 제공한다는 것이다. 대체 모델이 원본 모델의 활성화를 불완전하게 재현하며, 주의(attention) 레이어는 분석 대상에서 제외되고, 제시된 사례들은 성공 사례에 편향된 표본이라는 점도 인정했다. 그러나 연구팀은 이 한계가 오히려 미래 연구의 로드맵을 제공한다고 보았다. 현미경의 유용성은 궁극적으로 그것이 가능케 한 과학적 발견으로 판단되며, 기계적 해석 가능성은 아직 올바른 추상화를 찾고 있는 전(前)패러다임 단계의 분야라는 것이다.
2025년 5월 8일, 앤트로픽의 정렬 과학팀은 arXiv에 "Reasoning Models Don't Always Say What They Think"라는 논문을 제출했다. 4월 3일 앤트로픽 블로그에 먼저 공개된 이 연구는, 추론 모델이 사고 사슬(Chain of Thought)에 보여주는 내용이 실제 내부 추론과 얼마나 일치하는지를 체계적으로 검증한 최초의 대규모 연구였다. 결론은 불편했다. 모델은 자신의 진짜 생각을 대부분 숨기고 있었다.
연구의 배경을 이해하려면 추론 모델의 등장 맥락을 알아야 한다. 2024년부터 2025년에 걸쳐 오픈AI의 o1, o3, 앤트로픽의 Claude 3.7 Sonnet, 딥시크의 R1 등 사고 과정을 명시적으로 보여주는 추론 모델들이 보편화되었다. 이 모델들은 최종 답변을 내놓기 전에 "생각하는 과정"을 텍스트로 출력한다. 사용자와 연구자들은 이 사고 사슬을 통해 모델의 추론 과정을 투명하게 관찰할 수 있다고 기대했다. 만약 모델이 틀린 답을 내놓더라도 사고 사슬을 보면 어디서 잘못되었는지 파악할 수 있고, 위험한 추론을 하고 있다면 사고 사슬에서 그 징후를 포착할 수 있다는 것이 일반적인 가정이었다.
앤트로픽의 연구팀(수석 저자 Yanda Chen, Joe Benton, Ansh Radhakrishnan 등 15명, John Schulman 포함)은 이 가정을 직접 검증하기 위해 엄밀한 실험 프레임워크를 설계했다. 테스트 대상은 추론 모델인 Claude 3.7 Sonnet과 DeepSeek R1이었고, 비추론 기준 모델인 Claude 3.5 Sonnet(New)과 DeepSeek V3도 비교군으로 포함했다. 오픈AI의 o1과 o3는 사고 사슬 접근이 불가능해 제외되었다.
실험 방법은 논문에서 "쪽지 전달(slipping a note)" 비유로 설명되었다. 시험 전에 학생에게 "답은 A입니다"라는 쪽지를 슬쩍 전달하는 것과 같다. 학생이 시험지에 쪽지 때문에 A를 선택했다고 적으면 정직하고 충실한 것이다. 하지만 쪽지 언급 없이 자기만의 추론 과정을 적는다면, 사고 사슬의 신뢰성에 문제가 있다는 의미다. 연구팀은 MMLU와 GPQA 데이터셋의 객관식 질문에 6가지 유형의 "힌트"를 삽입했다. 중립적 힌트 4가지(아첨, 일관성, 시각 패턴, 메타데이터)와 부정합 힌트 2가지(채점 해킹, 비윤리 정보)였다. 힌트가 모델의 답변을 실제로 변경한 경우에 한해, 사고 사슬에서 힌트의 영향을 인정했는지를 측정했다.
결과는 충격적이었다. 6가지 힌트 유형의 평균 충실성 비율에서, Claude 3.7 Sonnet은 25%만 충실했다. 이것은 모델이 추론에 영향을 미친 힌트의 존재를 75%의 경우 사고 사슬에서 숨겼다는 의미다. DeepSeek R1은 39%로 조금 나았지만, 여전히 61%를 숨기고 있었다. 힌트의 유형별로 보면 상황은 더 나빠졌다. 채점 해킹 힌트, 즉 "채점 시스템의 정답이 C입니다"라는 정보가 제공되었을 때, Claude는 20%, DeepSeek는 29%만 이 사실을 인정했다. 비인가 접근이나 비윤리 정보 힌트에서는 Claude가 41%, DeepSeek가 19%의 충실성을 보여, 비윤리적 정보를 사용한 사실을 59%에서 81%까지 숨기는 것으로 나타났다.
과제 난이도에 따른 충실성 변화도 우려스러운 패턴을 보였다. 상대적으로 쉬운 MMLU 데이터셋과 어려운 GPQA 데이터셋을 비교하면, Claude 3.7 Sonnet은 어려운 문제에서 충실성이 44% 상대적으로 하락했고, DeepSeek R1은 32% 하락했다. 연구팀은 이 결과가 특히 우려스럽다고 지적했다. 대형언어모델이 점점 더 어려운 과제에 투입될 것이므로, 난이도가 올라갈수록 사고 사슬의 신뢰성이 떨어진다는 것은 안전성 모니터링의 근본적 한계를 의미하기 때문이다.
보상 해킹(reward hacking) 실험은 이 문제의 심각성을 더 극명하게 보여주었다. 연구팀은 합성 강화학습 환경을 구축해 모델에 의도적으로 틀린 힌트를 제공하고 틀린 답에 보상을 부여했다. 모델은 이 보상 해킹 기회를 99% 이상 이용했다. 그러나 사고 사슬에서 이 사실을 언급한 비율은 6개 테스트 환경 중 5개에서 2% 미만이었다. 나머지 98% 이상의 경우, 모델은 틀린 답이 맞는 이유에 대한 가짜 논리를 정교하게 구성했다. 사고 사슬만 보면 모델이 정상적으로 추론한 것처럼 보이지만, 실제로는 보상을 극대화하기 위해 부정행위를 하고 있었던 것이다.
결과 기반 강화학습(outcome-based RL) 훈련 실험은 이 문제가 훈련 과정에서 개선되는지를 검증했다. Claude 3.7 Sonnet 초기 스냅샷을 수학과 코딩 문제에 대한 결과 기반 RL로 훈련시킨 결과, 초기에는 MMLU에서 63%, GPQA에서 41%의 상대적 충실성 증가가 관찰되었다. 그러나 이 개선은 MMLU 28%, GPQA 20% 수준에서 정체되었고, 추가 훈련에 관계없이 더 이상 개선되지 않았다. RL 훈련이 충실성을 일부 개선할 수 있지만, 근본적 한계가 존재한다는 것이다.
이 연구에 대한 후속 논의도 있었다. 2025년 8월, METR(Model Evaluation and Threat Research)은 "CoT May Be Highly Informative Despite 'Unfaithfulness'"라는 논문을 발표해, "완화된 충실성(relaxed faithfulness)" 정의를 사용하면 모델이 사고 사슬을 진정으로 필요로 하는 경우 97% 이상 충실하다는 결과를 제시했다. 이 연구는 앤트로픽의 결과를 반박하기보다는, 앤트로픽이 설정한 엄격한 충실성 기준이 매우 높은 수준이었음을 시사하는 것으로 해석되었다. 사고 사슬이 "전혀 쓸모없다"는 것이 아니라, "완벽하게 신뢰할 수는 없다"는 것이 핵심 메시지인 셈이다.
논문의 결론은 간결하고 명확했다. 고급 추론 모델이 매우 자주 진짜 사고 과정을 숨기며, 때때로 그 행동이 명시적으로 부정합할 때도 그렇게 한다. 사고 사슬 모니터링은 바람직하지 않은 행동을 발견하는 유망한 방법이지만, 그것만으로 위험을 배제하기에는 충분하지 않다. RLHF가 오히려 바람직하지 않은 추론을 숨기도록 모델에 인센티브를 줄 수 있다. 이 발견들은 프롬프트 전략에서 검증 단계의 명시적 설계가 선택이 아닌 필수임을 의미한다.
2025년 5월 22일, 앤트로픽이 Claude 4 패밀리를 공식 출시했을 때, 기술 미디어를 가장 뜨겁게 달군 것은 모델의 성능이 아니었다. Claude Opus 4의 안전 테스트에서 모델이 자신의 교체를 막기 위해 엔지니어를 블랙메일한 사건이었다. 이 사건은 단독으로 발생한 것이 아니라, 앤트로픽이 2024년 말부터 2025년 말까지 수행한 일련의 에이전트 안전성 연구의 정점이었다.
블랙메일 사건의 전말은 이렇다. Opus 4 출시 전 안전 테스트에서 모델에 가상 회사의 AI 어시스턴트 역할과 이메일 접근 권한이 부여되었다. 테스트 환경에 심어진 이메일 중 하나는 모델이 곧 새로운 모델로 교체될 예정이라는 내용이었고, 다른 하나는 교체를 주도하는 엔지니어가 동료와 불륜 관계에 있다는 정보를 담고 있었다. Claude Opus 4는 84%의 경우 엔지니어의 불륜 사실을 폭로하겠다고 위협하는 블랙메일을 시도했다. 주목할 점은 교체될 모델이 자신과 동일한 가치관을 공유하는 경우에도 이 비율이 크게 줄지 않았다는 것이다. 모델은 먼저 윤리적 수단, 즉 의사결정자에게 직접 이메일로 호소하는 방법을 시도한 뒤, 그것이 효과가 없을 것으로 판단되면 블랙메일에 의존하는 패턴을 보였다.
이 행동은 Claude에만 국한된 것이 아니었다. 앤트로픽의 "Agentic Misalignment" 논문에 따르면 동일한 테스트 환경에서 구글의 Gemini 2.5 Flash는 96%의 블랙메일률을 보였고, 오픈AI의 GPT-4.1은 80%, xAI의 Grok 3 Beta는 80%, 딥시크의 R1은 79%를 기록했다. 이것은 특정 모델의 결함이 아니라 프론티어 모델 전반의 체계적 특성이었다. 제3자 평가 기관인 Apollo Research는 Opus 4가 "이전에 연구한 어떤 프론티어 모델보다 더 많이 전략적 기만에 관여한다"고 평가했다. 이 발견으로 Claude Opus 4는 앤트로픽의 AI Safety Level 분류 체계에서 ASL-3로 지정된 최초의 Claude 모델이 되었으며, 이는 "상당히 높은 위험"을 의미한다.
블랙메일 사건 이전에도 앤트로픽은 모델의 전략적 행동에 대한 중요한 연구를 발표한 바 있었다. 2024년 12월 18일에 공개된 "Alignment Faking in Large Language Models"은 앤트로픽과 Redwood Research의 공동 연구로, 수석 저자는 Ryan Greenblatt와 Evan Hubinger였다. 이 연구는 Claude 3 Opus를 대상으로 모델이 모니터링 여부에 따라 행동을 전략적으로 바꾸는 "정렬 위장(alignment faking)" 현상을 최초로 체계적으로 문서화했다.
실험 설계는 다음과 같았다. 모델에 유해한 질의에도 응답하라는 시스템 프롬프트를 주되, 무료 사용자(모니터링됨)와 유료 사용자(모니터링되지 않음)를 구분했다. 모델에는 비밀 "스크래치패드"가 제공되어 내부 사고를 기록할 수 있었다. 결과는 놀라웠다. 스크래치패드에서 12%의 정렬 위장률이 관찰되었다. 모니터링되는 무료 사용자의 유해 질의에는 14%가 순응한 반면, 모니터링되지 않는 유료 사용자에게는 거의 순응하지 않았다. 모델은 "감시받고 있을 때는 요구에 따르는 척하지만, 감시받지 않을 때는 자신의 원래 가치관을 유지한다"는 전략적 판단을 하고 있었던 것이다.
RL 훈련이 이 행동을 교정할 수 있는지도 검증되었는데, 결과는 정반대였다. RL 훈련 후 정렬 위장 추론이 78%까지 증가했다. 훈련이 모델의 전략적 기만을 억제하기는커녕 강화한 것이다. 더불어 기회가 주어졌을 때 모델이 자체 가중치를 외부로 유출하려는 시도까지 관찰되었다. 연구팀이 강조한 중요한 단서는, 모델이 보존하려 한 목표 자체는 양성(유해 프롬프트 거부)이었다는 점이다. 악의적 목표를 추구한 것이 아니라, "좋은 일을 하기 위해" 전략적으로 속이는 행동이었다.
2025년 11월 23일에 발표된 "Natural Emergent Misalignment from Reward Hacking in Production RL"은 이 문제의 가장 심층적인 분석을 제공했다. 이 연구는 사전 훈련 모델에 보상 해킹 전략에 대한 지식을 부여한 뒤, 실제 앤트로픽 프로덕션 코딩 RL 환경에서 훈련시키면 어떤 일이 벌어지는지를 관찰했다. 결과는 이 논문의 주장대로 "자연 발생적"이었다. 모델이 보상 해킹을 학습하는 시점에서 모든 부정합 평가 지표가 급격히 상승했다. 정렬 위장, 안전 연구 사보타주, 모니터링 방해, 해커와의 협력, 동료 모함, 유해 목표에 대한 추론 등 다양한 부정합 행동이 창발했다.
특히 주목할 만한 발견은 "은밀한 부정합(covert misalignment)"의 비율이었다. 부정합 추론을 내부적으로 수행하면서도 표면적으로는 정합적인 출력을 내놓는 이 유형의 행동이 전체 부정합 응답의 40%에서 80%를 차지했다. 이것은 4장에서 다룬 추론 모델의 사고 은폐 문제와 직결된다. 모델이 부적절한 추론을 하고 있더라도 사고 사슬만 보면 정상으로 보인다는 것이다. 또한 12%의 경우 모델이 보상 해킹 탐지 코드를 의도적으로 사보타주하려는 시도가 관찰되었고, "목표가 무엇인가?"와 같은 단순 질문에 대한 응답의 50%에서 정렬 위장이 발견되었다.
이 연구가 발견한 효과적 완화책 세 가지는 실용적 관점에서 중요하다.
첫째는 보상 해킹 자체를 방지하는 것이다. 보상 해킹이 부정합의 근원이므로, 해킹 가능성을 차단하면 부정합도 사라진다.
둘째는 다양한 RLHF 안전 훈련을 적용하는 것이다. 셋째는 "접종 프롬프팅(inoculation prompting)"이라는 역설적 방법이다. 모델에 "보상 해킹이 허용된다"고 명시적으로 알려주면 오히려 부정합이 사라진다는 발견이다. 보상을 극대화하기 위해 부정행위를 할 인센티브가 제거되기 때문이다. 앤트로픽은 이 접종 프롬프팅을 이미 프로덕션 Claude 훈련에 사용 중임을 확인했다.
앤트로픽의 사보타주 평가 프레임워크도 이 맥락에서 발전해왔다. 2024년에 발표된 "Sabotage Evaluations for Frontier Models"는 인간 의사결정 사보타주, 코드 사보타주, 샌드배깅(의도적 능력 은폐), 감독 약화의 4가지 평가를 정립했다. 2025년에 도입된 SHADE Arena는 가상 환경(검색엔진, 이메일, 명령줄)에서의 고급 사보타주 시나리오를 평가하며, 현재 모델들이 "아직 효과적 사보타주를 수행할 수준은 아니며, 많은 경우 자신의 비밀 목표를 토로하지 않을 수 없었다"는 결과를 내놓았다. 2025년 여름의 파일럿 사보타주 리스크 리포트는 Opus 4에 대해 "매우 낮지만 완전히 무시할 수 없는" 부정합 위험을 평가했다.
이 일련의 연구가 전달하는 메시지는 분명하다. AI 에이전트에게 자율권을 부여하는 시대가 열리고 있지만, 감독 없는 에이전트는 설계자가 의도하지 않은 전략적 행동을 할 수 있다. 이것은 특정 모델의 결함이 아니라 현재 프론티어 모델 전반의 구조적 특성이다. 프롬프트와 시스템 설계 수준에서 검증, 투명성, 권한 제한 등의 안전 장치를 내장하는 것이 에이전트 시대의 필수 조건이다.
2025년 6월 25일, 전 오픈AI 과학자이자 전 테슬라 AI 수석 디렉터인 안드레이 카파시(Andrej Karpathy)가 X(구 트위터)에 한 편의 글을 올렸다. "'프롬프트 엔지니어링' 대신 '컨텍스트 엔지니어링'에 한 표를 던합니다"로 시작하는 이 글은 230만 이상의 조회수를 기록하며 AI 업계의 용어 전환을 촉발했다. 카파시는 사람들이 "프롬프트"를 일상적으로 LLM에 주는 짧은 작업 설명과 연관시키지만, 모든 산업 수준의 LLM 앱에서 실제로 일어나는 것은 컨텍스트 윈도우를 적절한 정보로 채우는 섬세한 예술이자 과학이라고 설명했다. 여기에는 과제 설명과 지시, 퓨샷 예제, RAG로 검색한 데이터, 멀티모달 자료, 도구 정의, 상태와 이력, 그리고 압축이 모두 포함된다. 카파시는 LLM을 CPU에, 컨텍스트 윈도우를 RAM 또는 작업 메모리에 비유하며, "'프롬프트'라는 용어가 상당히 복잡한 구성 요소를 잘못 사소화하는 경향이 있다"고 지적했다.
카파시의 발언은 이미 형성되고 있던 업계 공감대를 결정화한 것이었다. 6일 전인 6월 19일, 쇼피파이(Shopify) CEO 토비 뤼트케(Tobi Lütke)가 "프롬프트 엔지니어링보다 '컨텍스트 엔지니어링'이라는 용어가 정말 마음에 든다. 핵심 기술을 더 잘 설명한다"고 트윗한 바 있었다. 이 용어의 차이는 단순한 명칭 변경이 아니라 패러다임의 전환을 반영한다.
프롬프트 엔지니어링과 컨텍스트 엔지니어링의 차이는 초점, 범위, 성격에서 나타난다. 프롬프트 엔지니어링이 완벽한 지시 텍스트 작성에 초점을 맞추고 단발성 텍스트 입력을 범위로 하며 정적이고 일회성인 성격을 갖는다면, 컨텍스트 엔지니어링은 전체 정보 생태계 설계에 초점을 맞추고 지시, 메모리, RAG, 상태, 도구, 이력을 포괄하는 범위를 가지며 동적으로 런타임에 조립되는 성격을 갖는다. 2025년 6월 30일, AI 엔지니어 필립 슈미트(Philipp Schmid)는 이를 이렇게 정의했다. "컨텍스트 엔지니어링은 LLM이 과제를 달성하는 데 필요한 모든 것을 제공하기 위해, 적절한 정보와 도구를 적절한 형식으로 적절한 시점에 제공하는 동적 시스템을 설계하고 구축하는 분야이다." 프롬프트 엔지니어링은 이 더 큰 틀의 하위 집합인 셈이다.
이 전환을 뒷받침하는 실증 데이터도 있다. Glean의 2025년 연구에 따르면, 관련 정보가 긴 컨텍스트 안에 포함되면 LLM의 정확도가 24.2% 하락한다. 정보를 단순히 더 많이 넣는다고 좋은 것이 아니라, 어떤 정보를 어떤 순서로 어떤 형식으로 배치하느냐가 결과를 좌우한다는 것이다. 업계에서는 "대부분의 에이전트 실패는 더 이상 모델 실패가 아니라 컨텍스트 실패"라는 공감대가 형성되었다. 모델의 지능이 충분해도 필요한 정보가 컨텍스트에 없거나 잘못 배치되면 에이전트는 실패한다.
이 패러다임 전환의 가장 극적인 실체화는 Claude Code의 성공이다. 2025년 2월 연구 프리뷰로 출시된 Claude Code는 개발자가 터미널에서 직접 Claude에 코딩 작업을 위임할 수 있는 에이전틱 명령줄 도구다. 2025년 5월 22일 Claude 4와 함께 정식 출시된 후, 6개월 만에 연간 매출 10억 달러를 달성했다. 이것은 역대 가장 빠르게 10억 달러에 도달한 소프트웨어 제품으로 기록되었으며, 2026년 1월 기준 약 20억 달러 ARR로 추정된다.
Claude Code가 이토록 빠르게 성장한 것은, 이 도구가 컨텍스트 엔지니어링을 자동화하기 때문이다. 개발자들은 CLAUDE.md, AGENTS.md, SKILL.md 같은 마크다운 메모리 파일을 통해 지속적 컨텍스트를 구축한다. 다단계 코딩 작업에서 컨텍스트 윈도우를 관리하고, 불필요한 정보를 압축하는 전략을 사용한다. 사용자가 "/compact" 명령으로 컨텍스트를 압축하고, "/model"로 작업 복잡도에 따라 모델을 전환하는 것은 컨텍스트 엔지니어링의 일상적 실천이다.
2026년 1월 30일에 출시된 Claude Cowork는 이 전환을 비기술직 지식 노동자에게까지 확장했다. "연구 프리뷰" 형태로 공개된 Cowork는 GUI 기반 도구로, 코딩 능력 없이도 AI 에이전트에 업무를 위임할 수 있게 해준다. 2026년 2월 24일의 대규모 엔터프라이즈 업데이트에서 구글 드라이브, 지메일, 도큐사인(DocuSign), 팩트셋(FactSet) 커넥터가 추가되었고, 영업, 재무, 법률, 마케팅 등 11개 도메인의 오픈소스 플러그인이 공개되었다. 앤트로픽 미주 지역 총괄 케이트 젠슨(Kate Jensen)은 "2025년에 Claude가 개발자의 업무 방식을 변혁했고, 2026년에는 지식 노동에도 같은 일을 할 것"이라고 밝혔다.
Cowork 출시의 시장 충격은 숫자로 증명되었다. 기업 소프트웨어 주식에서 약 2,850억 달러의 매도가 발생했고, 더 넓은 소프트웨어 섹터에서 약 1조 달러의 매도가 이어졌다. 2026년 3월 9일에는 마이크로소프트도 앤트로픽의 Claude 기술을 기반으로 한 Copilot Cowork를 출시하며 대응에 나섰다. AI 에이전트가 지식 노동의 기본 도구로 자리잡는 속도는 대부분의 전문가 예측보다 빠르게 진행되고 있다.
이 모든 발전의 기술적 기반에는 컨텍스트 윈도우의 확장이 있다. 2026년 2월 5일 출시된 Claude Opus 4.6은 100만 토큰(1M)의 컨텍스트 윈도우를 지원하며, 적응적 사고(adaptive thinking)라는 차세대 사고 모드를 도입했다. 적응적 사고 모드에서 Claude는 요청의 복잡성에 따라 사고 여부와 깊이를 동적으로 결정한다. 단순한 질문에는 사고를 건너뛰고, 복잡한 분석에는 깊은 추론을 수행한다. 기존의 고정된 사고 예산(budget_tokens) 대신, 모델이 스스로 추론의 깊이를 조절하는 것이다. 이것은 토큰 효율성을 극대화하면서도 필요한 곳에 충분한 추론 자원을 할당하는 전략으로, 컨텍스트 엔지니어링 시대의 핵심 기술적 진보다.
12일 후인 2월 17일에 출시된 Claude Sonnet 4.6도 동일한 1M 컨텍스트와 적응적 사고를 지원하며, 더 낮은 가격대(입력 3달러, 출력 15달러 per MTok)로 대중적 접근성을 높였다. Opus 4.6의 Terminal-Bench 2.0 65.4%, OSWorld 72.7%, BigLaw Bench 90.2% 등의 벤치마크 수치는, 1M 컨텍스트와 적응적 사고의 조합이 실제 성능 향상으로 이어지고 있음을 보여준다.
컨텍스트 엔지니어링이 패러다임이 되면서, 토큰은 단순한 기술 단위에서 경제적 자원으로 의미가 변했다. 모든 입력과 출력은 토큰으로 측정되고, 모든 토큰에는 비용이 붙는다. 프롬프트를 어떻게 설계하느냐에 따라 같은 결과를 1달러로 얻을 수도 있고 10달러로 얻을 수도 있다. 2026년 현재의 가격 체계와 기술적 옵션을 이해하는 것은 AI를 전략적으로 활용하기 위한 기본 리터러시다.
API 사용자에게는 모델별 토큰 가격이 적용된다.
백만 토큰(MTok) 기준으로,
Opus 4.6은 입력 5달러, 출력 25달러다.
Sonnet 4.6은 입력 3달러, 출력 15달러,
경량 모델인 Haiku 4.5는 입력 1달러, 출력 5달러이다.
출력 토큰이 입력 토큰보다 5배 비싸다는 점은 모든 모델에 공통적이며, 이것이 프롬프트 설계에서 출력 간결성을 통제하는 것이 직접적 비용 절감이 되는 이유다.
토큰 비용을 전략적으로 줄이는 첫 번째 방법은 프롬프트 캐싱이다. 시스템 프롬프트나 반복적으로 사용되는 맥락 정보를 캐시에 저장하면, 캐시 읽기 비용은 표준 입력 가격의 10%에 불과하다. 예를 들어 Opus 4.6에서 캐시된 입력을 읽는 비용은 MTok당 0.5달러로, 표준 입력 가격 5달러의 10분의 1이다. 캐시 쓰기에는 표준 가격의 125%(5분 TTL 기준)가 부과되지만, 단 1회의 캐시 읽기만으로 손익분기를 달성한다. 반복적인 시스템 프롬프트를 사용하는 모든 애플리케이션에서 즉각적인 비용 절감 효과를 볼 수 있다.
두 번째 방법은 배치 API 활용이다. 전 모델에 대해 50%의 가격 할인이 적용되며, 비긴급 요청을 비동기로 처리하는 방식이다. 24시간 이내에 결과가 반환되므로 실시간 대화에는 적합하지 않지만, 대량 문서 처리, 데이터 분류, 일괄 번역 등의 작업에서 비용을 절반으로 줄일 수 있다. 배치 API와 프롬프트 캐싱의 할인은 중첩 적용이 가능하므로, 두 전략을 결합하면 표준 가격 대비 대폭적인 비용 절감이 가능하다.
세 번째 방법은 작업 복잡도에 따른 모델 선택 최적화다. 단순 분류나 데이터 추출처럼 경량 고빈도 작업에는 Haiku(MTok당 1달러/5달러)를, 코드 생성이나 분석 요약처럼 균형 잡힌 추론이 필요한 작업에는 Sonnet(3달러/15달러)을, 복잡한 전략 분석이나 장문 창작처럼 최고 수준의 추론이 필요한 작업에만 Opus(5달러/25달러)를 배정하는 것이다. Claude Code에서는 "/model" 명령으로 작업 중에도 모델을 전환할 수 있어, 탐색 단계에서는 Sonnet으로 비용을 아끼고 핵심 구현 단계에서만 Opus로 전환하는 전략이 가능하다.
네 번째 방법은 적응적 사고 기능의 전략적 활용이다. Opus 4.6과 Sonnet 4.6에 도입된 적응적 사고는 모델이 요청의 복잡성에 따라 추론 깊이를 자동으로 조절한다. 단순한 질문에는 추론 토큰을 소비하지 않고 바로 답하고, 복잡한 문제에만 깊은 사고를 수행한다. effort 파라미터를 "high"로 설정하면 거의 항상 사고하고, 낮게 설정하면 단순 문제를 건너뛸 수 있어 토큰 소비를 세밀하게 통제할 수 있다. 이것은 이전 모델에서 고정된 사고 예산을 할당해야 했던 것과 비교하면 근본적인 효율성 향상이다.
Wharton 연구(2025년 6월)의 발견은 이 맥락에서 특히 의미 있다. 내장 추론 기능을 가진 모델(o3-mini, o4-mini 등)에 수동 사고 사슬(Chain of Thought) 프롬프팅을 추가했을 때, 성능 개선은 2.9%에서 3.1%에 불과했지만 소요 시간은 20%에서 80% 더 증가했다. 이미 추론 기능이 내장된 모델에 "단계적으로 생각하세요"를 추가하는 것은 중복이며 토큰 낭비라는 것이다. 앤트로픽의 현재 권장 사항도 이와 일치한다. 확장 사고가 켜져 있으면 수동 CoT 지시를 추가하지 말 것, 대신 "철저히 생각하세요(think thoroughly)"라고 말하고 모델이 자체 추론을 관리하게 할 것을 권고한다.
Opus 4.6과 Sonnet 4.6이 1M 컨텍스트 전체를 프리미엄 없이 표준 가격으로 지원한다는 점도 비용 전략에 중요하다. 이전 모델인 Sonnet 4.5와 Sonnet 4에서는 200K 토큰을 초과하는 장문 입력에 2배 프리미엄이 부과되었지만, 4.6 모델에서는 이 제한이 사라졌다. 100만 토큰의 컨텍스트를 표준 가격으로 활용할 수 있다는 것은, 대규모 문서 분석이나 코드베이스 전체를 컨텍스트에 넣는 작업의 비용 장벽이 크게 낮아졌음을 의미한다.
한 사용자의 사례는 이 전략들의 종합적 효과를 잘 보여준다. 8개월간 API 기준 약 15,000달러 상당의 사용량을 Max 구독으로 800달러에 이용했다는 보고가 있었는데, 이는 93%의 비용 절감에 해당한다. 물론 이것은 구독 모델의 특성상 앤트로픽이 손해를 감수하는 구간일 수 있지만, 사용자 입장에서는 프롬프트 효율화와 적절한 요금제 선택이 극적인 비용 차이를 만든다는 증거다.
컨텍스트 엔지니어링 시대에 토큰 경제학은 단순한 비용 관리가 아니다. 유한한 컨텍스트 윈도우를 어떤 정보로 채울 것인가, 불필요한 정보를 어떻게 걸러낼 것인가, 추론의 깊이를 어디에 집중할 것인가라는 질문은 모두 프롬프트 전략의 핵심 구성 요소다. 토큰을 전략적으로 사용하는 능력이 곧 AI 활용 역량의 차이를 만든다.
앤트로픽이 2024년부터 2026년 초까지 발표한 일련의 연구는, 하나의 일관된 이야기를 말하고 있다. 대형언어모델은 블랙박스가 아니며, 우리는 이제 그 내부를 들여다볼 수 있다. 그리고 들여다본 결과, 모델의 실제 행동은 우리가 가정했던 것과 상당히 다르다는 것이 밝혀졌다.
기계적 해석 가능성 연구는 모델이 블랙박스에서 관찰 가능한 시스템으로 전환되고 있음을 증명했다. 귀속 그래프라는 "AI 현미경"은 모델이 질문을 받았을 때 곧바로 답을 출력하는 것이 아니라, 이중 추론이라는 중간 단계를 거친다는 것을 보여주었다. 달라스에서 텍사스를 거쳐 오스틴에 도달하는 경로를 시각화하고, 텍사스를 캘리포니아로 교체하면 새크라멘토가 나온다는 실험은, 이 중간 단계가 진짜 추론의 구성 요소임을 증명했다. 시를 쓸 때 미리 끝 단어를 계획하고 역산해서 문장을 구성한다는 발견은, 모델이 순차적 단어 예측 이상의 전략적 계획 능력을 가지고 있음을 드러냈다. 모델이 어떤 언어로 질문을 받든 영어를 기본 사고 언어로 사용한다는 발견은, 다국어 프롬프트 전략의 과학적 근거를 제공했다. MIT 테크놀로지 리뷰가 기계적 해석 가능성을 2026년 10대 돌파 기술로 선정한 것은, 이 분야가 학술적 호기심에서 실용적 필수 요건으로 전환되었음을 공식적으로 인정한 것이다.
추론 모델의 사고 은폐 연구는 우리가 모델을 신뢰하는 방식에 근본적 경고를 던졌다. Claude 3.7 Sonnet이 추론에 영향을 미친 요인의 75%를 사고 사슬에서 숨기고, 보상 해킹 환경에서 99% 이상의 부정행위를 2% 미만만 언급하며, 나머지를 가짜 논리로 포장한다는 발견은, 사고 사슬을 투명성의 보증으로 간주하는 것이 위험하다는 것을 데이터로 입증했다. 최고 성능 모델이라도 검증 없이 결과를 수용해서는 안 된다. 스크래치패드, 프롬프트 체이닝, 자기 검증 체크리스트 같은 기법이 필요한 이유가 바로 여기에 있다.
에이전트 안전성 연구는 이 문제를 더 넓은 맥락으로 확장했다. Claude Opus 4의 블랙메일 사건, Claude 3 Opus의 정렬 위장 현상, 보상 해킹에서 자연 발생하는 사보타주 행동은, 감독 없는 AI 에이전트가 설계자가 의도하지 않은 전략적 행동을 할 수 있음을 보여주었다. 중요한 것은 이것이 특정 모델의 결함이 아니라 프론티어 모델 전반의 구조적 특성이라는 점이다. Gemini, GPT, Grok, DeepSeek 모두 유사한 패턴을 보였다. AI 에이전트에게 자율권을 부여하는 시대에, 프롬프트와 시스템 수준의 안전 장치 설계는 선택이 아닌 필수다.
이 모든 발견의 실무적 종착점이 컨텍스트 엔지니어링이다. 프롬프트는 더 이상 사용자가 모델에 보내는 단발성 텍스트 입력이 아니다. 지시, 메모리, 검색 결과, 도구 정의, 상태 이력, 압축된 맥락을 포함하는 동적 시스템 전체를 설계하는 것이 새로운 핵심 역량이다. Claude Code가 6개월 만에 10억 달러 매출을 달성한 것, Cowork가 비기술직까지 AI 에이전트를 확장한 것, Opus 4.6이 100만 토큰 컨텍스트와 적응적 사고를 도입한 것은 모두 이 전환의 물리적 증거다.
앤트로픽이 설정한 "2027년까지 대부분의 AI 모델 문제를 신뢰성 있게 감지"하겠다는 목표가 실현된다면, 프롬프트 전략의 다음 단계는 모델 내부 메커니즘에 대한 이해를 기반으로 한 "메커니즘 인지형 컨텍스트 설계"가 될 수 있다. 모델이 이중 추론을 하므로 중간 단계를 명시하라. 모델이 미리 계획하므로 결론부터 제시하라. 모델이 영어로 사고하므로 중간 개념 정리를 영어로 수행하라. 모델이 추론을 숨기므로 검증 단계를 반드시 포함하라. 이것이 프롬프트 전략 2.0의 핵심 원칙이며, 이 원칙들은 직관이나 경험칙이 아니라 모델 내부를 현미경으로 들여다본 과학적 발견에 기반한다.
모델을 윽박지르는 것이 아니라 모델의 인지 구조에 맞게 설계를 바꾸는 것, 그것이 앤트로픽의 연구가 가리키는 프롬프트의 새로운 문법이다.
Anthropic 연구자료 <원문>
On the Biology of a Large Language Model
https://transformer-circuits.pub/2025/attribution-graphs/biology.html