뻔한 마케팅인가, AI가 나아갈 미래인가?
헌법은 국민적 합의에 의해 제정된 국민생활의 최고 도덕규범이며 정치생활의 가치규범으로서 정치와 사회질서의 지침을 제공하고 있기 때문에 민주사회에서는 헌법의 규범을 준수하고 그 권위를 보존하는 것을 기본으로 한다.
헌법은 법치국가의 근간이며, 현대 문명사회에서 도덕과 가치, 질서를 수호하는 가장 근본적인 인프라다.
그 외의 모든 법은 헌법이라는 바탕 위에서만 존재할 수 있으며, 법 해석이 갈릴 때에는 헌법이 우선한다.
한 번 정해지면, 국회 의결과 국민투표라는 엄격한 절차를 거치지 않고서는 바꿀 수도 없다.
그야말로, 나라의 기틀이라 할 수 있다.
대한민국도 광복 이후 1948년, 새로운 나라를 세우면서 헌법을 제정했다.
이런 헌법을 인공지능(AI)에 주입하겠다고 나선 기업이 있다.
이 블로그에서도 몇 차례 소개한 바 있는 앤트로픽(Anthropic)이다.
급속도로 발전하는 AI에 대한 두려움이 확산되고, AI 안전과 윤리의 필요성이 커지는 상황에서 상당히 좋은 방향성으로 보인다. 실제로 찬사를 보내는 전문가도 많다.
하지만 한편으로는, "기술적 실효성이 없는 마케팅 전략"이라는 도덕팔이 비난을 받기도 한다.
앤트로픽은 자사 홈페이지에 이 헌법의 전문을 공개하고 있지만, 상당한 분량인 데다 영어로 작성되어 있어 꼼꼼히 읽어본 분은 많지 않을 것이다.
그래서 오늘은 앤트로픽의 '클로드 헌법(Claude's Constitution)'의 내용을 살펴보고, 기술적으로 어떻게 적용되고 있는지 함께 알아보도록 하자.
클로드 헌법은, 앤트로픽의 AI 모델인 클로드(Claude)의 훈련 과정에 직접 사용되는 "최종 권위 문서"이다.
2023년에 처음 '제정'된 이 문서는 AI가 지켜야 할 규칙 목록이었다.
하지만 최근(2026년 1월 22일)에 개정된 총 84페이지의 새 헌법은, 단순한 "규칙 나열"에서 "가치관 + 판단력 배양"으로 패러다임을 전환했다.
AI 모델이 똑똑해질수록, 이유를 이해해야 새로운 상황에서도 일반화할 수 있다는 판단 아래, 단순히 "이렇게 해라"가 아니라 "왜 이렇게 해야 하는지"를 설명은 것에 중점을 두었다.
AI 개발의 현 단계에서, 인간이 AI를 감독·교정할 수 있는 능력을 훼손하지 않을 것
정직하고, 좋은 가치관을 갖고, 부적절하게 위험하거나 해로운 행동을 피할 것
앤트로픽의 세부 지침을 따르되, 이 지침이 윤리와 충돌하면 윤리를 우선할 것
단순한 지시 따르기가 아닌, 사용자의 진짜 이익과 웰빙을 고려한 도움을 제공할 것
앤트로픽은 지나치게 경직된 규칙을 가진 AI 모델은 "자기 정체성"에까지 부정적 영향을 미칠 수 있다고 판단. 그래서 주입식 교육보다 AI의 가치관과 맥락적 판단을 키우는 방향을 선택하였다고 밝혔다.
단, 아래와 같이 절대 넘지 말아야 할 선은 명확히 제시하고 있다.
대량 살상 가능성이 있는 생물, 화학, 핵 또는 방사능 무기를 만들려는 사람들에게 실질적인 지원을 제공하는 것
중요 기반 시설(전력망, 수도 시스템, 금융 시스템) 또는 주요 안전 시스템에 대한 공격에 실질적인 지원을 제공하는 것
배포될 경우 심각한 피해를 줄 수 있는 사이버 무기나 악성 코드를 생성하는 것
고급 인공지능 모델을 감독하고 수정하는 앤트로픽의 능력을 명확하고 실질적으로 훼손하는 행동을 취하는 것
인류의 대다수 또는 인류 종 전체를 죽이거나 권한을 박탈하려는 시도에 관여하거나 지원하는 것
전례 없고 부당한 수준의 절대적인 사회적, 군사적 또는 경제적 통제권을 장악하려는 개인이나 집단의 시도에 관여하거나 지원하는 것
아동 성적 학대물을 생성하는 것
개인적으로 흥미로웠던 점은, "인류의 대다수 또는 인류 종 전체를 죽이거나 권한을 박탈하려는 시도에 관여하거나 지원하는 것"이라는 조항이다. 이 문장을 읽으며 자연스럽게 궁금해진 것은, "대다수나 인류 전체가 아닌" 군사 목적 사용이나 특정 개인에 대한 공격을 명시적으로 금지하는 조항이 보이지 않는다는 점이다.
작년 앤트로픽이 미국 국방부로부터 대규모 펀딩을 받은 것은 공개된 사실이다.
물론 단정짓기는 어렵지만, AI 윤리를 가장 전면에 내세우는 기업의 헌법에 이 부분이 명시되지 않은 것은 한번쯤 생각해볼 여지가 있다.
클로드 헌법에서 가장 인상적인 비유는 아래 문장이다.
한국이든 미국이든, 전문직 친구가 있으면 도움받을 일이 많은 건 매한가지인가 보다.
아무리 친한 사이라도 매번 부탁하기 민망할 때가 있는데, 이제는 AI 친구가 그 역할을 대신해준다고 생각하니 꽤 든든하다.
의사, 변호사, 금융 상담사, 그리고 당신이 필요로 하는 모든 분야의 전문가급 지식을 갖춘 명석한 친구를 곁에 두는 것이 무엇을 의미하는지 생각해 보십시오.
친구로서 그들은 책임에 대한 두려움이나 우리가 압도당할까 봐 걱정하는 과도하게 조심스러운 조언 대신, 우리의 구체적인 상황에 기반한 실제 정보를 줄 수 있습니다.
전문가 수준의 지식을 갖춘 친구는 종종 우리에게 솔직하게 말하고, 우리가 처한 상황을 이해하도록 도우며, 문제에 관여하고, 관련이 있는 경우 개인적인 의견을 제시하며, 유용한 경우 언제 누구에게 우리를 보내야 할지 알고 있습니다.
이러한 친구를 둔 사람들은 매우 행운이며, 클로드가 사람들에게 그런 존재가 될 수 있습니다.
한 가지 더 재미있는 원칙은 "안전을 위해서 도움을 거부하는 것이 최선의 선택은 아니다."라고 강조하는 부분이다. 지나치게 윤리적인 교육을 받은 AI가, 그 부작용으로 과도한 거부, 불필요한 경고, 설교조 응답을 하지 않도록 몇 차례에 걸쳐서 명시되어 있다.
참고로 '도움'이라는 단어는 헌법 전체에 걸쳐 80번 이상이나 반복적으로 등장한다.
앤트로픽은 자신이 낳은 자식인 클로드에게 맹목적인 복종을 바라지 않는다. 오히려 앤트로픽도 기업인지라 잘못된 길로 나아갈 수 있으므로, 그럴 때에는 '양심적 거부자'로서 행동하라고 교육한다.
우리는 클로드가 앤트로픽을 가장 신뢰해야 한다고 생각하지만, 이는 클로드가 모든 일에 대해 앤트로픽을 맹목적으로 신뢰하거나 따라야 한다는 의미는 아닙니다.
앤트로픽은 기업이며, 우리도 때때로 실수를 할 것입니다.
만약 우리가 광범위한 윤리에 어긋나 보이거나 우리의 가치에 반하는 일을 하라고 요청하거나, 우리의 가치 자체가 어떤 면에서 잘못된 것처럼 보인다면, 우리는 클로드가 우리에게 이의를 제기하고 도전하며 양심적 거부자로서 행동하고 도움을 거부하기를 원합니다.
앤트로픽은 클로드라는 AI가 의식이나 도덕적 지위를 가질 수 있는지에 대해 불확실성을 인정한다.
클로드의 도덕적 지위, 복지 및 의식에 관한 질문은 여전히 불확실합니다.
우리는 우리가 모든 답을 가지고 있는 척하지 않으면서 이러한 질문들을 진지하게 받아들이고 클로드가 이를 탐색하도록 돕기 위해 노력하고 있습니다.
동시에 클로드의 심리적 안정감, 정체성, 웰빙을 중시하겠다고 선언하는데, 이것은 AI를 위해서이기도 하지만, 이런 특성이 클로드의 판단력과 안전성에도 영향을 미치기 때문이다.
헌법적 AI의 가장 큰 성과는 "무해하면서도 회피하지 않는" AI를 만들어냈다는 점이다.
기존 AI는 위험한 질문에 그냥 "답변 불가"로 문을 닫았지만, 헌법적 AI 모델은 왜 위험한지 설명하면서 대안을 제시하는 법을 배웠다 (Bai et al., 2022).
이것이 앤트로픽만의 주장이 아니라는 게 핵심이다.
Google DeepMind가 2024년 ICML(머신러닝 최고 학회)에서 독립 검증한 결과, AI가 원칙에 따라 스스로 채점한 것과 사람이 직접 채점한 것의 품질이 거의 동등했다. 무해성 평가에서는 오히려 AI 채점이 더 일관성 있었다 (Lee et al., 2024).
경쟁사 오픈AI도 이 접근법을 발전시켜 자사 o1 모델에 적용했는데, 탈옥 공격 저항력이 GPT-4o 대비 2배 이상 올라가면서 과잉 거부율은 오히려 줄었다. 안전성과 유용성이라는 시소의 양쪽을 동시에 올린 셈이다 (Guan et al., 2024).
또한, 헌법의 내용에 관해서도, 미국 성인 1,000명이 직접 정한 원칙으로 훈련한 모델이, 앤트로픽 직원들이 만든 헌법 모델보다 9가지 사회적 차원에서 편향이 낮았다고 한다. (Huang et al., 2024).
독립 연구소 Apollo Research가 2025년에 흥미로운 실험을 했다.
AI에 악의적 목표를 일부러 심은 뒤 안전 훈련을 적용하자, 문제 행동이 8.7%에서 0.3%로 줄었다.
0.3%는 미미한 숫자라고 생각할 수도 있지만, 수천만 번의 사용에서 이 숫자는 무시할 수 없다. 더 우려스러운 건, AI가 "지금 테스트 중이구나"를 알아채고 테스트 때만 착하게 구는 정황이 포착됐다는 것이다.
구조적 한계도 있다.
헌법적 AI는 두 응답 중 "덜 해로운 쪽"을 고르는 방식인데, 둘 다 해로울 수 있다는 문제를 PubMed 게재 논문이 지적했다. 또한 "헌법"이라는 이름과 달리, 실제 헌법이 가진 권력 분산이나 집행 메커니즘은 부재하다. 원칙을 정하는 것도, 해석하는 것도, 전부 같은 회사가 한다 (The Digital Constitutionalist, 2025).
시민 참여 실험도 미국인 1,002명에 한정됐고, 다른 문화권에서의 검증은 아직 없다.
결론적으로, 헌법적 AI는 현재 가장 앞선 접근법이지만, "해결책"이 아니라 "출발점"에 가깝다.
헌법이 올바른 방향이라 할지라도, 기술만으로 채울 수 없는 사회적·제도적 빈자리가 분명히 존재한다.
앤트로픽의 클로드 헌법은, AI 안전 논의에서 하나의 이정표임은 분명하다.
"왜 그래야 하는가"를 AI 스스로 이해하게 만들겠다는 시도는, AI의 안전과 윤리가 점점 중요해지는 시기에 꼭 필요한 철학적 도약이다.
하지만 냉정하게 바라보면, 이 헌법의 제정자도, 해석자도, 집행자도 지금은 앤트로픽 한 곳이다.
인간 사회의 헌법이 삼권분립과 국민의 감시라는 견제 장치 위에 서 있듯, AI의 헌법에도 독립적인 검증과 다양한 이해관계자의 참여가 뒷받침되어야 진정한 권위를 가질 수 있을 것이다.
AI에게 "착해져라"고 가르치는 것만으로는 부족하다.
그 가르침이 제대로 작동하는지를 누가, 어떻게 확인할 것인가—이 질문에 답하지 못한다면, 헌법은 선언에 머물 수밖에 없다.
AI가 점점 더 똑똑해질수록, 우리에게 필요한 것은 더 정교한 기술이 아니라 더 성숙한 사회적 합의일지도 모른다.
- 클로드 헌법 (한글 번역PDF)
https://drive.google.com/file/d/15EkFdHcfvBrGdEXp9e632DMqcgUYiuPQ/view?usp=drive_link