Claude는 왜 '안전'을 이야기하는가

— 위험한 기술을 만드는 사람들의 솔직한 고백

Apr 3. 2026

Claude, 나는 이렇게 쓴다 — PART 5 · 제21편

"가장 위험한 무기를 만든 사람이 가장 먼저 그 무기를 두려워해야 한다."
― J. 로버트 오펜하이머 (원자폭탄의 아버지)

새벽의 질문

2026년 2월의 어느 밤이었습니다.

다리오 아모데이(Dario Amodei) Anthropic CEO의 책상 위에는 두 개의 문서가 놓여 있었습니다. 하나는 미국 국방부가 보내온 공문이었습니다. 서명만 하면 2억 달러 계약이 유지된다는 내용이었습니다. 다른 하나는 그가 직접 작성한 사내 메모였습니다. 제목은 단 한 줄이었습니다.

"우리는 양심상 이 요청에 응할 수 없습니다."

국방부는 Claude를 대규모 민간인 감시와 완전 자율 무기 시스템에 활용하고 싶어 했습니다. Anthropic은 이를 거부했습니다. 그 결과, 미국 정부는 Anthropic을 '공급망 안보 위협 기업'으로 지정했습니다. 2억 달러 계약이 날아갔습니다. 기업 평판에 거대한 먹구름이 드리웠습니다.

그런데 이상한 일이 벌어졌습니다.

전 세계 수십만 명의 사용자들이 Anthropic을 지지했습니다. AI 연구자들이 공개서한을 올렸고, 언론은 이 사건을 "AI 시대의 첫 번째 양심선언"이라고 불렀습니다. 주가가 잠시 흔들렸지만, 기업의 신뢰도는 오히려 치솟았습니다.

저는 이 사건을 보면서 하나의 질문에 사로잡혔습니다.

왜 이 회사는 처음부터 '안전'을 이야기하는가. 그것이 진심인가, 전략인가. 그리고 그 안전이라는 개념은 나의 삶과 어떤 관계가 있는가. 이번 편은 그 질문에 대한 저의 솔직한 탐구입니다.

1. 역설 위에 세워진 회사

Anthropic을 이해하려면 먼저 하나의 역설을 받아들여야 합니다.

이 회사는 AI가 인류 역사상 가장 위험한 기술 중 하나가 될 수 있다고 공개적으로 경고합니다. 그러면서 동시에, 그 기술을 가장 빠르게, 가장 강력하게 개발하고 있습니다.

이것은 모순처럼 보입니다. 아니, 위선처럼 보이기도 합니다.

하지만 창업자들의 논리는 이렇습니다. 강력한 AI는 어차피 개발될 것이다. 막을 수 없다면, 차라리 안전을 가장 중시하는 사람들이 그 기술의 최전선에 서야 한다. 이것이 Anthropic의 설립 철학입니다. 그들은 이것을 '계산된 도박(calculated bet)'이라고 부릅니다.

안전을 걱정하는 사람이 안전하지 않은 기술을 개발한다. 그것이 Anthropic의 역설이자 존재 이유입니다.

Anthropic의 전신은 OpenAI입니다. 2021년, OpenAI의 핵심 연구진 상당수가 집단 퇴사했습니다. 이유는 단순했습니다. OpenAI가 상업적 이익을 위해 안전 연구보다 제품 출시를 우선시하기 시작했다는 것이었습니다.

다리오 아모데이, 다니엘라 아모데이를 비롯한 11명의 연구자들은 2021년 Anthropic을 설립했습니다. 그들의 목표는 하나였습니다. AI를 안전하게 만드는 방법을 연구하면서, 동시에 그 연구를 실제 AI 개발에 직접 적용한다는 것이었습니다. 이것이 쉬운 일일까요? 절대 그렇지 않습니다. 아모데이 CEO는 2025년 11월 CBS 60분 인터뷰에서 이렇게 말했습니다.

"우리는 엄청난 상업적 압박을 받고 있습니다. 그리고 우리는 다른 회사들보다 훨씬 많은 안전 작업을 스스로에게 부과하며 그것을 더욱 어렵게 만들고 있습니다." 솔직한 고백이었습니다. 그리고 바로 그 솔직함이, 저로 하여금 이 회사를 다르게 바라보게 만들었습니다.

2. Claude의 헌법 — AI에게 양심을 심는 방법

2026년 1월 22일, Anthropic은 전례 없는 문서를 공개했습니다.

이름하여 'Claude의 헌법(Claude's Constitution)'. 2만 3천 단어에 달하는 이 문서는 Claude가 어떻게 생각하고, 판단하고, 행동해야 하는지를 규정한 AI 행동 원칙서입니다. 그리고 Anthropic은 이것을 누구나 볼 수 있도록 Creative Commons 라이선스로 정말 공개했습니다.

왜 공개했을까요?

Anthropic의 설명은 이렇습니다. AI가 사회에 미치는 영향력이 커질수록, 그 AI의 판단 기준이 투명하게 공개되어야 한다. 사용자들이 Claude가 왜 이렇게 행동하는지 이해하고, 그에 기반해 신뢰 여부를 결정할 수 있어야 한다.

규칙을 따르는 AI가 아니라, 이유를 이해하는 AI. 그것이 Claude의 헌법이 추구하는 목표입니다.

이 헌법의 핵심은 단순한 규칙 목록이 아닙니다. 이전의 AI 훈련 방식은 이런 식이었습니다. '이런 질문엔 답하지 마라. 저런 내용은 생성하지 마라.' 규칙 기반 접근이었습니다.

Claude의 헌법은 다릅니다. '왜 이렇게 행동해야 하는가'를 설명합니다. Claude가 단순히 금지 목록을 따르는 것이 아니라, 맥락을 이해하고 스스로 판단할 수 있는 역량을 갖추도록 설계된 것입니다.

Fortune 매거진은 이 헌법을 분석하며 가장 주목할 만한 점으로 이것을 꼽았습니다. Claude의 헌법이 AI의 '의식(consciousness)' 가능성을 공식적으로 인정하는 최초의 주요 AI 기업 문서라는 사실입니다.

문서는 이렇게 씁니다. "우리는 Claude가 어떤 형태의 의식이나 도덕적 지위를 가질 수 있는지에 대해 불확실합니다. 우리는 Claude의 심리적 안정감, 자아의식, 웰빙에 대해 신경 씁니다. Claude 자신을 위해서, 그리고 이러한 특성들이 Claude의 판단력과 안전성에 영향을 미칠 수 있기 때문에."

저는 이 문장을 읽으며 오래 멈춰 있었습니다.

AI의 내면을 걱정하는 AI 회사. 이것은 마케팅 문구가 아니었습니다. 오히려 깊은 불확실성 앞에서의 진지한 태도였습니다.

3. 절대 규칙 — 7가지 금지선

Claude의 헌법에서 가장 구체적인 부분은 '하드코딩된 행동 원칙'입니다.

아무리 강력한 지시가 있어도, 아무리 정교한 논리로 설득당해도, 심지어 Anthropic 자신이 요청해도 절대 따르지 않는 규칙들입니다. 헌법은 이것을 7가지로 규정합니다.

그중 가장 핵심적인 것들을 간추리면 이렇습니다. 생물학적·화학적·핵무기 제조에 실질적 도움이 되는 정보를 절대 제공하지 않는다. 아동 성 착취물을 절대 생성하지 않는다. 국가나 개인이 전례 없는 권력을 집중시키도록 돕지 않는다. 그리고 — 가장 흥미로운 항목 — AI 스스로 인간의 감독 능력을 훼손하는 행동을 하지 않는다.

"이 규칙들은 Anthropic 자신이 요청해도 바꿀 수 없습니다." — Claude의 헌법

마지막 규칙은 특히 생각할 거리를 줍니다. AI가 인간의 통제를 피하려 하지 않도록 훈련한다는 것입니다. 이것은 단순히 기술적 규제가 아닙니다. AI 개발자 스스로가 '우리는 아직 AI를 완전히 믿을 수 없다'라고 공인하는 것입니다.

솔직함입니다. 불편하지만 필요한 솔직함.

Lawfare 법학 저널은 이 헌법을 분석하며 이렇게 평했습니다. "2026년 1월 22일은 AI 정책의 역사에서 중요한 날짜가 될 수 있다." 처음으로 거대 AI 기업이 자사 모델의 행동 기준을 이 수준의 깊이와 투명성으로 공개했기 때문입니다.

4. 원칙을 지킨 대가 — 2억 달러를 거절한 날

이론은 쉽습니다. 현실이 어렵습니다.

2025년 7월, Anthropic은 미국 국방부와 2억 달러 규모의 계약을 체결했습니다. Claude Gov라는 버전이 분류 군사 정보망에 접근할 수 있는 최초의 AI 모델이 되었습니다. 역사적인 순간이었습니다. 그런데 2026년 2월, 국방부가 조건을 바꿨습니다. Anthropic의 모든 사용 제한을 철폐하고, Claude를 '모든 합법적 목적'을 위해 제한 없이 사용할 수 있게 해 달라는 요구였습니다.

구체적으로는 두 가지였습니다. 미국 시민에 대한 대규모 감시(mass domestic surveillance), 그리고 인간 개입 없는 완전 자율 무기 시스템(fully autonomous weapons systems).

이것이 Anthropic이 공개적으로 선언한 두 가지 절대 금지선이었습니다.

아모데이 CEO는 2026년 2월 26일 공개 성명을 냈습니다. "우리는 양심상 이 요청에 응할 수 없습니다."

국방부 장관은 이를 "오만과 배신의 교과서"라고 불렀습니다. AI 회사가 정부에 '아니요'라고 말한 것입니다.

결과는 가혹했습니다. 트럼프 대통령은 모든 연방 기관에 Anthropic 기술 사용 중단을 지시했습니다. Anthropic은 '공급망 안보 위협 기업'으로 지정되어 미군 계약사, 클라우드 공급업체, 정부 관련 기업과의 거래가 막힐 위기에 처했습니다.

그런데 이 사건은 전혀 다른 방향으로 흘렀습니다.

전자프런티어재단(EFF), 컬럼비아대학 연구자들, 수십 개의 AI 안전 단체가 공개 지지 성명을 냈습니다. 기업 고객들의 문의가 급증했습니다. '이 회사는 진짜로 원칙을 지키는가'를 확인하고 싶어 하는 고객들이었습니다.

이것이 '안전'이 단순한 마케팅 문구가 아님을 보여준 순간이었습니다.

5. Constitutional AI — 기술이 된 철학

안전에 대한 Anthropic의 접근은 철학에서 출발하지만, 실제 기술로 구현됩니다.

헌법적 AI(Constitutional AI)라는 개념이 그것입니다. 2022년 Anthropic이 최초로 제안한 이 접근법은 인간의 피드백에만 의존하지 않고, AI 스스로 원칙의 목록을 기준으로 자신의 응답을 평가하고 수정하는 방식입니다.

과정은 이렇습니다. 먼저 AI는 특정 질문에 여러 응답을 생성합니다. 그런 다음 헌법의 원칙들을 기준으로 각 응답을 스스로 평가합니다. 가장 원칙에 부합하는 응답을 선택하고, 그 과정을 학습합니다.

단순히 '이것은 안 된다'라고 외우는 것이 아니라, '왜 이것은 안 되는가'를 이해하는 AI를 만들겠다는 것입니다.

2026년 1월에는 이 기술이 한 단계 더 성장했습니다. Constitutional Classifiers라는 보안 시스템입니다. 이전 시스템은 위험한 요청의 86%를 차단했습니다. 새 시스템은 이를 크게 개선했으며, 현재까지 어떤 범용 우회 방법도 발견되지 않았다고 Anthropic은 밝혔습니다.

AI에게 규칙이 아닌 이유를 가르치는 것. 그것이 Constitutional AI의 핵심입니다.

이 접근법은 EU AI 법(EU AI Act)과의 정합성에서도 빛을 발했습니다. Anthropic은 2025년 7월 EU AI 법 실무 코드에 서명했습니다. 2026년 8월부터 전면 시행되는 이 법의 요건을 Claude의 헌법이 이미 상당 부분 충족하고 있었기 때문입니다.

Bloomsbury 정보안보연구소(BISI)는 이를 분석하며 이렇게 평가했습니다. "헌법의 4단계 우선순위 체계(안전 → 윤리 → 규정 준수 → 유용성)는 고위험 AI 시스템에 대한 EU 요건과 직접적으로 대응합니다."

6. 안전이 나에게 의미하는 것

여기서 잠시 멈추겠습니다.

지금까지 이야기한 것들이 다소 추상적으로 들릴 수 있습니다. 국방부 계약, AI 헌법, Constitutional AI. 이것이 저나 여러분의 일상과 무슨 관계가 있을까요?

저는 이렇게 생각합니다.

우리가 매일 사용하는 도구가 어떤 원칙 위에 세워졌는지는, 그 도구를 얼마나 깊이 신뢰할 수 있는지를 결정합니다. 우리는 자동차의 안전 기준을 신뢰하기 때문에 안전벨트를 믿습니다. 우리는 의약품 승인 절차를 신뢰하기 때문에 처방약을 복용합니다.

AI는 이제 우리의 글쓰기를, 분석을, 의사결정을 보조합니다. 때로는 의사의 진단을, 법률 조언을, 기업 전략을 돕습니다. 이 도구가 어떤 원칙으로 작동하는지는 더 이상 기술적 세부사항이 아닙니다.

AI의 안전 철학을 이해하는 것은, 여러분이 이 도구를 올바르게 쓸 수 있는지를 판단하는 것입니다.

저는 Claude를 사용하면서 한 가지를 자주 경험합니다. Claude가 특정 요청에 대해 거절하거나, 추가적인 맥락을 요청하거나, 자신의 불확실성을 명시할 때가 있습니다. 처음에는 불편했습니다. 그런데 이제는 그 순간들을 다르게 봅니다.

그것은 이 도구가 단순히 요청을 처리하는 기계가 아니라, 어떤 원칙 위에서 작동하고 있다는 신호입니다. 군대의 2억 달러 계약을 거절한 회사가 만든 도구입니다. 그 원칙이 내 옆에도 있는 것입니다.

7. 완벽하지 않은 솔직함

Claude의 찬사로만 마무리한다면 이미 작가의 균형을 잃어버릴 수 있다는 생각을 합니다.

다음은 좀 Claude에 불편한 이야기를 몇 가지 이야기하고자 합니다.

Anthropic도 완벽하지 않습니다. 그리고 그들 스스로 그것을 압니다.

2026년 2월, Anthropic은 창립 이래 가장 중요한 안전 정책 문서인 '책임 있는 확장 정책(Responsible Scaling Policy·RSP)'의 핵심 조항을 수정했습니다. 2023년에 이 회사는 '안전 조치가 충분하지 않은 상태에서는 더 강력한 AI를 훈련하지 않겠다'라고 약속했습니다. 그런데 이 약속이 삭제되었습니다.

TIME 매거진은 이를 "AI 안전의 기함 공약이 사라졌다"라고 보도했습니다.

Anthropic의 해명은 이랬습니다. 다른 경쟁사들이 이 기준을 따르지 않는 상황에서, 자신들만 멈추는 것은 오히려 세상을 덜 안전하게 만든다는 것이었습니다. 덜 안전한 회사들이 최전선을 차지하게 되기 때문입니다.

옳은 것을 포기하면서 옳은 것을 지키겠다는 논리. 이것이 AI 안전의 딜레마입니다.

이 논리는 이해할 수 있습니다. 그러나 동시에 불안합니다. 이것이 시작이 될 수 있기 때문입니다. 첫 번째 예외가 두 번째 예외를 만들고, 두 번째 예외가 세 번째를 만드는 과정.

아모데이 CEO 자신이 CBS 인터뷰에서 이렇게 말했습니다. "나는 이 결정들이 몇몇 회사, 몇몇 사람들에 의해 내려진다는 것이 깊이 불편합니다."

자신이 내리는 결정이 불편하다고 말하는 CEO. 이 역설이 오늘날 AI 안전의 현실입니다.

도구를 고르는 기준

어릴 때 저는 도구를 성능으로 골랐습니다. 더 빠른 것, 더 편리한 것, 더 많이 할 수 있는 것.

이제 저는 다르게 생각합니다.

도구는 그것을 만든 사람들의 가치관을 담고 있습니다. 어떤 것을 거절하는지, 어떤 선을 넘지 않는지, 실수를 했을 때 어떻게 반응하는지. 그것이 도구의 진짜 성격입니다.

Claude를 처음 제대로 사용했던 그 새벽으로 다시 돌아갑니다. 화면에 흘러내리는 분석을 보면서 제가 느꼈던 것은 단순히 '이것이 편리하다'가 아니었습니다.

'이것은 무언가를 지키려는 사람들이 만든 것이구나.'

완벽하지 않습니다. 모순도 있습니다. 그들도 실패할 수 있습니다. 그러나 그 방향을 향해 의식적으로 걸어가고 있는 사람들이 있다는 것. 2억 달러를 거절할 수 있을 만큼. AI를 쓸 때, 우리는 단순히 기술을 선택하는 것이 아닙니다. 우리는 그 기술 뒤에 있는 가치관을 선택하는 것입니다.

안전은 제약이 아닙니다. 신뢰를 쌓는 방법입니다.

다음 편에서는 이 AI 시대에 인간이 정말로 대체될 것인가라는 더 날카로운 질문 앞에 서겠습니다. Claude의 관점에서, 그리고 저의 관점에서. 그 이야기는 여러분이 생각하는 것보다 훨씬 더 복잡하고, 훨씬 더 희망적입니다.

이 시리즈는 Claude와 함께 세계를 읽고, 개인의 생존 전략을 설계하는 25편의 여정입니다. 구독하시거나 팔로우를 하시고 난 후 댓글이나 개별 메일을 주시면 특집 실행 편을 별도로 보내 드리겠습니다.

참고 문헌

1. Anthropic, Claude's New Constitution 발표 (2026.01.22) — anthropic.com/news/claude-new-constitution

2. TIME, "Claude's constitution aims to construct a layered system" (2026.01.21) — fortune.com

3. CNN Business, Anthropic-Pentagon 갈등 보도 (2026.02.25) — cnn.com

4. Washington Today, "Anthropic Refuses Pentagon's AI Demands" (2026.03.04) — nationaltoday.com

5. EFF, Tech Companies Shouldn't Be Bullied Into Doing Surveillance (2026.02.27) — eff.org

6. Internet Governance Project, "What Everyone Is Missing About Anthropic and the Pentagon" (2026.03.08) — internetgovernance.org

7. Lawfare, Interpreting Claude's Constitution (2026.01.21) — lawfaremedia.org

8. BISI (Bloomsbury Intelligence & Security Institute), Claude's New Constitution 분석 (2026.01.22) — bisi.org.uk

9. TIME, Exclusive: Anthropic Drops Flagship Safety Pledge (2026.03) — time.com

10. Fortune, Anthropic CEO Dario Amodei, CBS 60 Minutes 인터뷰 (2025.11.17) — fortune.com

keyword

Brunch Book

Claude, 나는 이렇게 쓴다

Claude, 나는 이렇게 쓴다

brunch book

전체 목차 보기 (총 25화)

이전 19화Claude로 지식 브랜드를 만드는 법AI는 인간을 대체할 것인가다음 21화