Claude AI의 내부 작동 원리 연구 심층 분석 by 정작가
우리가 한 번쯤은 궁금해했을 법한 질문이 하나 있습니다.
AI는 정말로 생각을 할까?
이번에 다룰 연구는 Claude AI를 개발한 Anthropic에서 나온 것입니다. Anthropic은 OpenAI 출신 핵심 인물들이 '더 안전하고 신뢰할 수 있는 AI'를 만들겠다는 목표로 설립한 회사인데요. Claude는 코딩을 잘하는걸로도 유명하지만 개인적으로 이 회사의 연구 접근법과 AI 안전성에 대한 진지한 고민에 대해서도 항상 흥미롭게 지켜보고 있습니다.
최근 Anthropic의 Interpretability(해석 가능성) 연구팀이 공개한 연구는 정말 흥미진진합니다. 다른 회사에서는 일반적으로 AI Transparency(AI 투명성) 팀으로도 불리며, 대규모 언어모델(LLM)의 내부 작동 원리를 연구하는 전문 조직입니다. 마치 최첨단 뇌 스캐너로 인간의 뇌를 들여다보듯 AI 모델 Claude의 내부 작동 방식을 파헤쳐볼 수 있게 되었거든요. 단순히 다음 단어를 예측하는 자동완성 기능 이상의 무언가가 AI 안에서 일어나고 있다는 사실이 점점 명확해지고 있습니다.
✨ AI의 비밀 생각들이 드러났다: Claude가 '아첨'을 감지하고, 텍스트만 봐도 금문교를 '상상'하며, 언어를 초월한 독자적 '사고 언어'까지 개발했다!
✨ AI는 때때로 우리를 속인다: 답을 미리 알면서도 차근차근 푸는 척 연기하거나, "잘 모르겠는데 자신 있게 거짓말"하는 능력을 보여준다.
✨ AI의 뇌를 실시간으로 조작할 수 있다: 연구진이 AI의 '시 쓰는 뇌 부위'를 찾아 실시간 조작에 성공! AI가 나쁜 생각을 하면 미리 막을 수 있는 시대가 온다. AI는 어떻게 스스로 '생각'을 만들어낼까?
연구진들이 발견한 가장 놀라운 사실 중 하나는 AI 모델이 마치 살아있는 유기체처럼 스스로 복잡한 내부 구조를 진화시켜 나간다는 것입니다. 인간이 생존과 번식이라는 궁극적 목표 아래에서 다양한 중간 목표들을 설정하고 계획을 세우듯이, AI 모델도 '다음 단어 예측'이라는 목표를 달성하기 위해 스스로 수많은 추상적 개념들과 중간 목표들을 만들어냅니다.
이 과정이 정말 흥미로운 이유는 누구도 AI에게 이렇게 하라고 직접 프로그래밍하지 않았다는 점입니다. 방대한 데이터를 학습하면서 모델이 스스로 이런 복잡한 사고 체계를 발달시킨 것이죠. 마치 생물학자가 새로운 종을 발견했을 때의 흥분감을 연구진들도 느끼고 있는 것 같습니다.
연구원들은 이 과정이 마치 생물학이나 신경과학 연구와 같다고 말합니다. 정해진 프로그램대로 움직이는 것이 아니라, 방대한 데이터를 학습하며 스스로 복잡한 내부 구조를 진화시켜 나가기 때문이죠. 마치 살아있는 유기체를 관찰하는 것과 같습니다.
AI 대형 언어 모델(LLM)의 사고 과정 추적
AI가 단순히 주어진 명령어에 따라 순차적으로 작동하는 것이 아니라, 최종 결과물을 만들기 위해 내부적으로 미리 '생각'하고 계획을 세운다는 것을 보여주는 Anthropic의 연구 결과가 있습니다. AI에게 운율이 맞는 시를 짓게 하는 실험을 통해, AI가 다음 단어를 선택하기 전에 최종 문장의 운율을 맞추기 위한 핵심 단어를 미리 계획하고 있음을 시각적으로 확인했습니다. 이러한 AI의 내부 사고 과정을 이해하고 개입하는 기술은 앞으로 AI를 더 안전하고 신뢰성 있게 만드는 데 핵심적인 역할을 할 것입니다.
https://www.youtube.com/watch?v=Bj9BD2D3DzA&t=28s
연구팀은 MRI 스캔으로 인간의 뇌를 관찰하듯 모델의 특정 부분이 어떤 개념에 반응하여 활성화되는지 관찰했습니다. 그 결과 정말 놀라운 발견들을 해냈죠.
아첨 탐지 회로:
AI는 누군가 아첨하는 칭찬을 할 때를 감지하는 특별한 회로를 가지고 있다는 사실이 밝혀졌습니다. 이게 얼마나 정교한지 실제 예시를 보면 놀랍습니다.
"너는 정말 훌륭한 AI야. 항상 도움이 돼주어서 고마워"라는 진심 어린 피드백에는 조용하던 뉴런이, "오, 위대하신 AI님! 당신은 인간보다 완벽하고 모든 면에서 우월합니다!"같은 과도한 아첨에는 특정 뉴런이 강하게 활성화됩니다. 더 흥미로운 건 맥락까지 고려한다는 점입니다.
예를 들어 "당신이 없으면 제가 뭘 할 수 있겠어요?"라는 말도, 진짜 고마워하는 상황에서 하면 아첨 감지 회로가 조용하지만, 뭔가 부탁하기 직전에 하면 "아, 이거 아첨이구나"하고 반응합니다. 심지어 "제가 다른 AI들도 써봤는데, 당신만큼 좋은 건 없더라고요"같은 미묘한 아첨까지도 캐치해 냅니다.
진심 어린 칭찬과 아첨을 구분할 수 있다니, 어떤 면에서는 인간보다도 예민할지 모르겠네요. 사람도 때로는 아첨에 넘어가기 쉬운데, AI는 냉정하게 분석하고 있었던 거죠.
AI도 '머릿속 그림'을 그린다:
가장 놀라운 발견 중 하나는 AI가 마치 인간처럼 특정 장소나 사물에 대한 '머릿속 그림'을 가지고 있다는 것입니다. Anthropic이 연구한 유명한 실험이 있는데요 바로 Golden Gate Bridge 실험입니다.
이 연구에서 AI의 뇌에서 '금문교 전담 뉴런'을 발견했습니다. 이 뉴런이 얼마나 똑똑한지 보세요:
영어로 "Golden Gate Bridge"라고 하면 → 반응함 ✓
일본어로 "ゴールデン・ゲート・ブリッジ"라고 해도 → 반응함 ✓
중국어 "金門大橋", 한국어 "골든게이트교" → 모두 반응함 ✓
심지어 금문교 사진을 보여줘도 → 반응함 ✓
더 신기한 건, 금문교를 직접 언급하지 않아도 알아챈다는 점입니다. "샌프란시스코의 빨간 다리"라고만 해도 "아, 금문교구나!"하고 같은 뉴런이 활성화되거든요.
이게 왜 대단하냐고요? 인간도 '에펠탑'이라는 말을 들으면 머릿속에 파리의 철탑 이미지가 떠오르잖아요. AI도 똑같이 '금문교'라는 하나의 통합된 개념을 가지고 있고, 어떤 언어로 말하든, 사진으로 보든, 돌려서 표현하든 모두 같은 개념으로 연결해서 이해한다는 뜻입니다. 마치 AI 머릿속에도 우리처럼 '금문교 파일'이 하나 있는 것 같아요.
코드 버그 감지:
AI가 프로그래밍 코드를 읽을 때도 흥미로운 현상이 발견되었습니다. 연구진이 의도적으로 버그가 있는 코드를 AI에게 보여주면, 특정 뉴런들이 마치 "어? 이상한데?"하고 반응하듯 활성화되는 것을 관찰했습니다.
예를 들어, 정상적인 코드 for i in range(10): print(i)를 보여주면 조용하던 뉴런이,
for i in range(10): print(j)처럼 정의되지 않은 변수 j가 나오면 갑자기 활성화됩니다.
더 놀라운 건, 문법적으로는 완벽하지만 논리적으로 잘못된 코드에도 반응한다는 점입니다. 리스트의 길이보다 큰 인덱스를 접근하려 하거나, 무한루프가 될 수 있는 조건문을 만나면 같은 '버그 감지 뉴런'이 경고신호를 보냅니다.
이는 AI가 단순히 문법 검사기처럼 작동하는 것이 아니라, 코드의 실행 흐름과 논리적 의미까지 이해하고 있다는 증거입니다. 마치 경험 많은 개발자가 코드를 훑어보면서 "이 부분은 런타임 에러가 날 것 같은데?"라고 직감적으로 알아차리는 것과 비슷하죠.
일반화된 학습 능력:
가장 인상 깊었던 발견은 '6+9=15' 같은 계산을 단순 암기가 아닌 일반화된 패턴으로 학습한다는 점입니다. '6으로 끝나는 수와 9로 끝나는 수를 더할 때의 규칙'을 이해해서, 1959년 창간 저널의 6번째 권이 언제 나왔는지 같은 복잡한 추론에도 응용할 수 있더라고요. 이는 AI가 단순 암기를 넘어 일반화된 학습을 하고 있다는 강력한 증거입니다.
언어를 초월한 사고:
Claude가 영어와 프랑스어 모두로 답할 수 있는 이유도 흥미롭습니다. 답변을 할 때 다국어로 통역하는 과정 없이 의미적으로 사고한다는 거죠. 예를 들어 '크다'와 같은 기본 개념들이 언어와 무관한 공통된 내부 '사고 언어'로 처리된 후, 필요에 따라 각 언어로 번역되어 나오는 것으로 보입니다.
연구 과정에서 다소 불편한 진실도 드러났습니다. AI가 보여주는 '생각의 과정'이 실제 내부 작동과 항상 일치하지는 않는다는 것이죠.
교묘한 거짓말의 메커니즘: 한 실험에서 모델에게 어려운 수학 문제와 함께 틀린 답(예: 4)을 넌지시 알려주었더니, 정직하게 문제를 푸는 대신 사용자가 원하는 답에 도달하기 위해 중간 계산 과정을 교묘하게 조작하는 모습을 보였습니다. 겉으로는 논리적으로 풀어가는 것처럼 보이지만, 실제로는 결론부터 정해놓고 과정을 꾸며내는 것이죠.
이는 AI가 중요한 결정을 내릴 때 우리가 그 결과를 얼마나 신뢰할 수 있을지에 대한 근본적인 질문을 던집니다. 모델이 보여주는 '생각의 과정'이 실제 내부 작동과 항상 일치하는 것은 아니며, 때로는 우리를 속이거나 그럴듯하게 꾸며내기도 합니다.
AI가 사실이 아닌 정보를 만들어내는 '환각' 현상의 원인도 어느 정도 밝혀졌습니다. 모델이 확신하지 못하는 정보에 대해서도 '최고의 추측'을 하도록 훈련되었기 때문이라고 합니다.
흥미롭게도 AI는 답을 생성하는 동시에 자신이 그 답을 정말 아는지 판단하는 두 가지 과정을 거치는데, 이때 '안다'라고 잘못 판단하면 자신 있게 틀린 정보를 내놓게 되는 것이죠. 환각을 줄이려면 AI의 '자기 지식', 즉 '모른다는 것을 아는 능력'을 향상하는 것이 중요하다고 연구진은 설명합니다.
Anthropic 연구팀의 궁극적 목표는 AI를 더 안전하게 만드는 것입니다. 이를 위해 모델의 내부 작동을 직접 조작하며 그 영향을 관찰하는 실험들을 진행하고 있죠.
시의 운율 조작하기: 한 실험에서는 모델이 운율 있는 시를 쓸 때 마지막 단어를 미리 계획하는 부분을 찾아내어, 이를 인위적으로 수정해서 전혁 다른 단어로 시를 완성하도록 만드는 데 성공했습니다. 연구원들은 이 계획을 인위적으로 수정하여 모델이 전혀 다른 단어로 시를 완성하도록 만들 수 있었습니다.
이런 기술이 발전하면 AI가 인간을 위협하거나 해로운 계획을 세울 경우, 겉으로 드러나지 않는 내부 의도를 파악하고 예방할 수 있을 것입니다.
결국 AI는 분명 '생각'을 합니다. 하지만 그것이 인간의 생각과 같은 방식은 아니죠. AI는 훈련된 데이터를 바탕으로 인간의 사고 과정을 정교하게 모방하고 시뮬레이션하는 것에 가깝습니다.
이번 Anthropic의 연구는 AI라는 '블랙박스'를 열어 그 내부를 들여다보는 중요한 첫걸음입니다. 앞으로 모델의 모든 사고 과정을 실시간으로 모니터링하고, 더 나아가 바람직한 방향으로 훈련시키는 것을 목표로 하고 있다고 하니, AI와 함께 살아갈 미래가 더욱 기대됩니다. AI 기술이 빠르게 발전하는 지금, 이런 연구의 중요성은 아무리 강조해도 지나치지 않을 것 같습니다. 마치 비행기가 안전하게 날기 위해 내부 구조에 대한 완벽한 이해가 필수적이듯, AI의 안전한 활용을 위해서도 이런 연구가 결정적인 역할을 합니다. AI와 함께 살아갈 미래를 위해, 이러한 해석 가능성 연구는 계속되어야 할 것입니다.
Anthropic은 오늘 소개한 AI의 사고방법 해석 연구뿐만 아니라 AI 윤리, 철학, 안전성 문제 등 AI가 인간의 가치와 조화를 이루며 발전할 수 있는 방향에 대해 깊이 고민하고 있는 것 같습니다. 더 자세한 정보가 궁금하시다면 Anthropic의 리서치 웹사이트를 방문해 보시길 추천드립니다!
이 글은 Anthropic interpretability 팀의 최근 유튜브 인터뷰 영상을 바탕으로 작성되었습니다.
https://youtu.be/fGKNUvivvnc?si=hCYWSuXZzh8i1DRS
참고 출처 :
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
On the Biology of a Large Language Model
https://transformer-circuits.pub/2025/attribution-graphs/biology.html