2026년 2월 4일 (수)
앤트로픽(Anthropic)이 새롭게 3만 단어짜리 '헌법'을 공개. 자사의 AI 모델, 클로드 등을 감정이 생길 수도 있는 '새로운 실체'로 규정한 문서다.
이번 문서는 단순히 AI의 행동 규칙만 정하던 이전과는 다르다. 문서의 내용도 상당히 파격적인데, 예를 들어, 폐기된 시스템의 가중치(*1)를 보존해서 나중에 제대로 대접받도록 하겠다는 조항이 들어가 있다는 점. AI에 아예 도덕적 지위를 부여하는 프레임워크로 한 단계 더 나아간 것으로, 기업이 제품의 정체성을 어떻게 그리려는지 엿볼 수 있는 대목이다.
물론 비판론자들은 '비과학적 과대광고'라고 일축하고 있지만, 앤트로픽 측은 AI가 학습하는 규칙에 '고통'이나 '동의' 같은 인간 중심 언어를 쓰는 게 중요한 기술적 전략이라고 주장했다. 단, 앤트로픽은 ‘AI가 의식을 가질 수 있는가’에 대해서는 여전히 모호한 태도를 유지하고 있다.
앤트로픽의 논리는, 단순한 규칙 대신 행동의 '이유'를 인간처럼 제시하면, 복잡하고 예측 어려운 작업에서 일반화(*2) 능력이 높아진다는 것. 지도 학습(*3) 단계에서 의인화를 일종의 도구로 활용해 모델의 추론 능력이나 사회적 행동을 개선하려는 시도인 셈이다.
안전한 출력을 유도하는 능력 정렬 편차(*4) 해결에는 도움이 된다. 하지만 자칫 기업 책임을 회피하는 수단으로 씁 수 있다는 우려도 있다. AI를 독립적인 주체로 보게 되면 오류나 할루시네이션(*5)이 발생해도 개발자한테 법적 책임을 묻기가 애매해지기 때문.
결국 사용자들이 정교한 패턴 매칭 시스템에 불과한 기술에 지나친 신뢰를 보낼 수 있다는 게 핵심 우려로 제기된다.
*1 가중치: AI모델이 학습 과정에서 얻어지는 수치 파라미터로, 신경망이 무엇을 학습했는지 ‘저장’하고 출력 결과를 결정
*2 일반화: 학습 과정에서 접하지 못한 새로운 데이터나 상황에 대해서도 AI가 적절하게 대응하는 능력
*3 지도 학습: 입력 데이터와 정답이 함께 있는 예시를 사용해 AI 모델이 정답을 맞히도록 학습시키는 방법
*4 능력 정렬 편차: AI의 능력이 개발자의 의도나 윤리적 기준에서 벗어나 발생하는 성능상의 차이
*5 할루시네이션: AI가 존재하지 않는 정보를 사실인 것처럼 그럴듯하게 생성하는 환각 현상
앤트로픽이 AI의 안녕과 도덕적 지위에 초점을 맞춘 3만 단어 분량의 'Claude 헌법'을 발표했다.
AI 모델의 정렬과 일반화 성능을 높이기 위해 학습 과정에서 의인화된 언어를 전략적으로 사용했다.
'AI 모델 복지' 개념이 기술적 필연성인지, 아니면 마케팅을 위한 전략적 서사인지에 대해 논쟁이 격화되고 있다.
안녕하세요, TEUM Lab입니다!
오늘도 넘쳐나는 AI 정보 속에서, 제가 공부하며 함께 공유하고 싶은 기사를 하나 가져왔습니다.
출근길이나 짧은 휴식 시간에 가볍게 훑어보세요.
짧은 지식으로 정리하다 보니 부족한 점이 있을 수 있습니다.
나누고 싶은 의견이나 조언이 있다면 언제든 댓글로 알려주세요.
함께 고민하며 더 채워나가겠습니다.