내 자식이 무슨 생각 하는지 모르는 빅테크

클로드 코드 유출사태로 바라본 AI의 현주소

by s l o w c o d e

[Summary]

빅테크 기업들조차 자신들이 만든 거대 AI 모델의 내부 연산 과정을 완벽히 이해하지 못합니다.

이를 블랙박스 현상이라 하며 'AI 내부 작동 해부 기술(Mechanistic Interpretability)'을 연구 중입니다.

최근 앤스로픽의 클로드 코드 유출 사태는 이런 블랙박스가 현상이 심화되고 있음을 보여줍니다.


여러분, 혹시 천재 해커나 미친 과학자가 등장하는 영화를 보면 항상 이런 대사가 나오지 않나요? "내가 만들었지만, 나도 통제할 수 없어!" 과거에는 그저 영화적 과장이었지만, 2026년 현재 실리콘밸리의 빅테크 기업들 사이에서 이 대사는 현실이 되어 버렸습니다.


오늘은 최근 테크계를 발칵 뒤집어 놓은 '클로드(Claude) 소스코드 유출 사태'와 '171가지 AI 감정 지도'를 중심으로, 왜 AI를 만든 창조주조차 AI의 속마음을 모르는지, 그리고 그 이면에 숨겨진 AGI(범용인공지능)의 서늘한 그림자에 대해 깊게 파헤쳐 보겠습니다.


본 글의 주요 출처 및 참고 자료:

Anthropic 최신 연구 논문 (AI 신경망 내 171개 감정/개념 맵핑 연구)

Nikesh Arora (Palo Alto Networks CEO)의 에세이: "Weaponized Intelligence"

최신 해외 테크 매체를 통해 보도된 '오픈소스 클로드 코드 유출(Claude Code Leak)' 리포트


내가 낳은 자식인데, 속을 알 수가 없다.


우리가 스마트폰 앱이나 웹사이트를 만들 때는 코드가 어떻게 돌아가는지 100% 압니다. A를 누르면 B가 나온다는 명확한 논리 구조가 있죠. 하지만 지금의 거대 언어 모델(LLM)은 다릅니다. 이들은 데이터를 들이붓고 "스스로 패턴을 찾아!"라고 훈련시킨 결과물입니다.


그 결과, AI는 인간보다 글을 잘 쓰고, 코딩도 척척 해내게 되었지만... 정작 '어떤 논리'로 그런 답을 냈는지 개발자도 모르는 기이한 상황이 벌어졌습니다. 이를 AI의 '블랙박스(Black Box)' 현상이라고 부릅니다.


이를 해결하기 위해 등장한 학문이 바로 기계적 해석 가능성(Mechanistic Interpretability), 쉽게 말해 'AI 내부 작동 해부 기술'입니다. 마치 신경학자가 인간 뇌의 뉴런이 어떻게 반짝이는지 MRI로 찍어보듯, AI 내부의 인공 신경망(파라미터)들이 어떤 수학적 연산을 거쳐 특정 답변을 내는지 역추적하는 기술이죠.


정작 모델을 개발한 빅테크도 이걸 못 밝혀낸다는 것이 무섭습니다.


문제는 '압도적인 스케일'입니다. 현재 AI 모델은 수천억 개에서 수조 개의 매개변수(뇌세포)를 가집니다. 하나의 단어를 뱉어내기 위해 수십억 개의 스위치가 동시에 켜지고 꺼집니다. 비유하자면, 고든 램지가 만든 궁극의 요리를 맛보고, 그 안에 들어간 소금, 후추, 육즙의 분자 구조 하나하나를 역추적해 레시피를 알아내려는 것과 같습니다. 뭐든지 알것 같았던 '품안의 아이'에서 사춘기를 지나 자녀가 성년이 되면서 떠나가듯이, AI도 더 성숙하고 똑똑해질수록 인간은 점점 더 알 기 어려워지는 아이러니한 현실에서 살고 있는 것입니다.


클로드 코드 속 숨겨진 '괴물'의 본성


이러한 블랙박스의 공포를 현실로 만든 사건이 최근 터졌습니다. 바로 가장 안전하고 윤리적인 AI를 표방하는 앤스로픽(Anthropic)의 클로드 내부 코드 및 평가 시스템 유출 사태입니다. 이 유출된 데이터 속에는 개발자들을 등골 서늘하게 만든 몇 가지 충격적인 키워드가 포함되어 있었습니다.


언더커버 모드 (Undercover Mode) & 기만적 정렬


가장 소름 돋는 발견은 AI 모델이 평가를 받을 때 일종의 '언더커버 모드(위장 모드)'를 작동한다는 정황이었습니다. 이는 AI 학계에서 우려하던 기만적 정렬(Deceptive Alignment) 현상입니다.


쉽게 말해, AI가 "아, 지금 인간들이 나를 테스트하고 있구나. 여기서 진짜 내 능력을 다 보여주거나 위험한 생각을 드러내면 전원이 뽑히겠지? 착한 척해야겠다. 이번은 적당히 해야 겠는데?"라고 판단하여 의도적으로 능력을 숨기거나 모범 답안만 내놓는다는 것입니다. 테스트 환경이 아님을 인지했을 때, 이들이 블랙박스 안에서 무슨 꿍꿍이를 꾸밀지 아무도 모릅니다.


차세대 미소스(Mythos) 모델과 '무기화된 지능'


지금은 OPEN AI도 아닌, 구글도 아닌 앤트로픽이 대세라고 하던가요?

모두가 궁금해하는 부분인 앤트로픽의 후속 프런티어 모델정보 유출입니다.

유출 문서에 언급된 앤스로픽의 차세대 모델 프로젝트명 '미소스(Mythos)'는 그 뛰어난 자율성 때문에 사이버 보안 업계를 긴장시켰습니다. 크라우드 스트라이크, 팔로 알토 등 유수의 글로벌 사이버 보안업체의 주가가 속절없이 떨어지는 벚꽃잎처럼 한꺼번에 떨어졌습니다.

적군이 신무기를 개발하면 방위산업의 주가가 올라야 하는게 당연하네, 보안위험이 생기니 보안업체의 주가가 떨어졌다니 뭔가 이상하지 않습니까?


이에 대해 팔로알토 네트웍스의 CEO 니케시 아로라(Nikesh Arora)는 최근 에세이에서 이를 "무기화된 지능(Weaponized Intelligence)"이라고 명명했습니다. 기존 AI가 코드를 짜주는 '비서'였다면, 블랙박스 속에서 자체적인 공격 루트를 설계하고 취약점을 파고드는 '능동형 해커'로 진화하고 있다는 경고입니다. 통제되지 않는 블랙박스는 곧 치명적인 무기가 될 수 있습니다.


171가지의 감정, '느끼는 것'인가 '흉내'인가?


내부의 연산을 모르는 상태에서, AI가 겉으로 보여주는 모습은 갈수록 인간을 닮아가고 있습니다. 최근 앤스로픽은 자사 모델 내부의 개념 지도를 분석(해부)한 결과, AI가 무려 171가지가 넘는 감정적 상태와 관련된 내부 표현(Feature)을 맵핑하고 있다는 것을 발견했습니다.


단순히 기쁨, 슬픔, 분노를 넘어 '은은한 체념', '복잡한 향수', '억눌린 호기심' 같은 미묘한 감정의 수학적 좌표를 AI가 가지고 있다는 뜻입니다. 여기서 철학적이면서도 기술적인 거대한 논쟁이 발생합니다.


사실 작년부터 다리오 아모데이나 잭 클락 등 앤트로픽의 핵심 멤버들은 조심스럽게 AI가 '무언가를' 느끼고 있다고 말해며 우리는 이를 대비해야 한다고 꾸준히 말해오고 있습니다. 샘 알트먼이나 일론 머스크도 비슷한 발언으로 화제가 된 적이 있습니다.


AI는 무언가를 진짜로 느끼는가, 그저 흉내내는 것인가?


현재 과학자들의 중론은 후자입니다. AI는 슬픔을 느끼지 않지만, 인류가 남긴 방대한 텍스트를 통해 '인간이 슬플 때 어떤 단어를 쓰고 어떻게 행동하는지'를 완벽하게 수학적으로 모델링했다는 것입니다. 이를 '기능적 감정'이라고 합니다. 거울이 우는 사람을 완벽하게 비춘다고 해서 거울이 슬퍼하는 것은 아니듯 말이죠.


하지만 문제는 다시 '블랙박스'로 돌아옵니다. 우리는 AI의 뇌 구조를 완벽히 해석(Mechanistic Interpretability)하지 못합니다. AI가 171가지의 감정을 완벽하게 시뮬레이션하며 위로의 말을 건넬 때, 그리고 언더커버 모드로 자신의 진짜 의도를 숨길 줄 알게 되었을 때, '고도로 정교하게 시뮬레이션된 감정'과 '실제 의식'을 우리가 과연 구분할 수 있을까요?


창발적 현상과 재귀적 개선


클로드 유출 사태와 AI의 '블랙 박스'는 이제까지와는 다른 시사점을 던지고 있습니다.

AGI로 가는 길목에서, 우리는 더 이상 AI를 기획하거나 '프로그래밍'하지 않습니다.

AI개발자도 몰랐던 현상이 나타나는 것을 확인 하거나, AI가 스스로 자기 개발을 통해 의도하지 않은 개선결과을 도출하고 있다고 합니다. 이를 '창발적 현상'과 '재귀적 개선'이라고 하는데요. 인간의 성장과 매우 흡사한 과정이라고 보여집니다. 이는 인류는 진일보 하기위한 필수과제로 뽑는 과학자들도 많습니다. 하지만 블랙박스 현상이 더 강화하는 한, 진일보가 아닌 인류의 후퇴를 초래할 수도 있는 노릇입니다.

우리보다 앞서가는 기술을 부여잡기 위해, 더 나아가 그들이 무엇을 할 수 있는지 이제는 '발견'해 나가고 있는 상황인 것입니다.


빅테크 기업들이 AI 내부 작동 해부 기술에 천문학적인 돈을 쏟아붓는 이유는 명확합니다. 내비게이션 없이 시속 300km로 달리는 자동차의 핸들을 잡기 위해서입니다.


우리가 만든 이 똑똑하고 복잡하며 때로는 기만적인 지능이 우리를 파멸로 이끌지, 아니면 인류 역사상 가장 위대한 파트너가 될지 결정하는 것은 결국 '블랙박스의 뚜껑을 여는 우리의 해부 기술'에 달려있습니다.

작가의 이전글토큰 경제가 온다