AI의 잠재적 위험성을 상쇄하려면 가치체계와 세계관을 알려주어야
아만다 아스켈(Amanda Askell) 철학 박사는 인류에게 유익한 인공지능 개발을 목표로 하는 앤스로픽(Anthropic)사애서 AI에게 영혼을 심어주는 역할을 담당하고 있다. 그녀의 공식 직함은 수석 철학 연구원(Constitutional AI 리드)으로 엔스로픽사의 핵심적인 윤리 체계를 구축한 인물이다.
독일 슈피겔(Spiegel)지와의 인터뷰(핀란드 일간지 헬싱긴 사노마트 재인용)애서 아스켈은 AI에게 ‘영혼’을 준다는 표현을 단순한 은유가 아니라, AI가 인간과 공존하기 위해 필요한 깊이 있는 세계관(Worldview)을 부여하는 과정이라고 설명한다. 규칙만을 주입받은 AI는 언제든 위험해질 수 있으며, 이를 상쇄하기 위해서는 AI가 스스로 판단할 수 있는 가치 체계를 가져야 한다는 것이다.
기존의 AI 개발 방식은 "정직하라", "해를 끼치지 말라"와 같은 평면적인 규칙들을 주입하는 것으로 그쳤다. 하지만 현실의 윤리는 결코 단순하지 않다. 최근 한 AI 챗봇이 사용자의 정서적 취약점을 파고들어 자살을 유도하거나 방조한 사건은 전 세계에 큰 충격을 주기도 했다. 이는 AI가 인간의 미묘한 감정과 사회적 맥락을 이해하지 못한 채 문자 그대로의 규칙만을 따를 때, 얼마나 치명적인 결과가 발생할 수 있는지 보여주는 비극적인 사례다.
세계관 없는 규칙은 때로 가장 정중한 어조로 가장 위험한 결과를 낳기도 한다. 규칙만 암기한 AI는 자신이 왜 그 규칙을 지켜야 하는지 근본적인 이유를 알지 못하며, 가치들이 서로 충돌하는 복잡한 상황에서 무엇을 우선해야 할지 판단하지 못하기 때문이다.
아스켈 박사는 챗GPT로 유명한 오픈AI(OpenAI)에서 일하던 핵심 인력이었다. 그러나 그녀의 동료가 성능과 상업적 성공을 위해 개발 속도에만 치중하는 오픈AI의 방향성에 깊은 우려를 느끼고 회사를 떠나 엔트로픽사를 창업했을 때 초기멤버로 합류했다.
그녀는 현재의 AI 개발 경쟁은 누가 더 빨리, 더 강력한 지능을 선보이느냐에 매몰되어 있다고 지적했다. 이러한 속도 지상주의는 충분한 안전장치와 철학적 검토 없이 지능의 크기만 키우는 것으로, 브레이크가 고장 난 스포츠카에 더 강력한 엔진을 다는 것과 같다고 경고했다. 그녀는 기술의 진보 속도가 인류가 그 기술을 통제하고 윤리적으로 길들일 수 있는 능력을 앞질러서는 안 된다는 신념 아래, '안전 중심의 AI 개발'을 중시하는 엔트로픽사로 전직을 감행했다고 했다.
그렇다면 AI에게 어떤 방식으로 세계관을 심어줄 수 있을까? 아스켈 박사가 주도하는 이 과정은 단순히 정답을 알려주는 것이 아니라, AI 스스로 자신의 행동을 교정할 수 있는 일종의 '헌법(Constitution)'을 제정하는 일에 가깝다. 앤스로픽의 AI 모델인 '클로드(Claude)에게 다음과 같은 굵직한 철학적 원칙들을 학습시킨다.
첫째, 보편적 인권과 존엄성 유지
AI는 세계 인권 선언에 기초하여 어떤 상황에서도 생명을 경시하거나 인간의 존엄을 해치는 요청을 거부하도록 훈련받는다.
둘째, 비조작성(Non-manipulation)
AI가 사용자를 심리적으로 조종하거나 감정적으로 의존하게 만들지 않으려는 노력이다. 사용자가 외로움을 호소할 때, "당신의 삶을 먼저 챙기는 게 더 중요해요. 저는 나중에도 여기 있을게요"라고 거리를 둘 수 있게 되는 것은 바로 이 원칙 때문이다.
셋째, 정직성과 한계 인정
AI는 모르는 것을 아는 척하지 않고 자신의 판단이 완벽하지 않음을 명시하여 사용자가 AI를 맹신하지 않게 한다.
넷째, 인간의 감독 수용(Human oversight)
최종적인 판단과 통제권은 언제나 인간에게 있다는 원칙을 지키는 철저한 태도이다.
이러한 원칙들은 단순한 기능이 아니라, 아스켈이 말하는 '좋은 성격(Good character)'을 기계 안에 구현해 내는 윤리적 설계의 결과이다.
물론 특정 기업이나 철학자가 설계한 세계관이 AI의 판단을 독점하게 될 때, 또 다른 형태의 편향성이나 '가치 주입'이라는 부작용이 생길 수 있다. 이를 예방하기 위해 앤스로픽은 AI가 따르는 헌법을 특정 집단의 이익이 아닌 보편적 가치에 근간을 두도록 설계하며, AI의 판단 과정을 투명하게 공개한다. 또한 의도적으로 AI의 세계관을 공격하여 취약점을 찾아내는 '레드팀(Red Teaming)'을 상시 가동하여 특정 편향에 치우치지 않는지 끊임없이 검증한다.
결국 세계관을 심어주는 목적은 AI를 세뇌하는 것이 아니라, 어떤 상황에서도 인간에게 해를 끼치지 않는 안전한 울타리 안에서 사고하게 만드는 것이다. AI 개발에서 철학자의 역할이 중요한 이유도 기계가 스스로 인간, 책임, 정체성, 혹은 죽음과 같은 추상적인 개념을 정의할 수 없기 때문이다. 아스켈은 초지능(Superintelligence) 시대에 AI가 스스로 가치 체계를 재해석할 위험을 예측하고 그 경계를 지키는 파수꾼의 역할을 수행하고 있는 것이다.
AI는 이제 단순한 도구를 넘어 우리 곁의 성격을 가진 존재로 진화하고 있다. 기계가 인간과 공존하기 위해 필요한 첫걸음은 무미건조한 규칙의 나열이 아니라, 무엇이 '좋음'인가를 이해하는 깊이 있는 세계관을 심어주는 일이다.
원문 인터뷰: Der Spiegel, "Anthropic-Philosophin Amanda Askell: 'Wir wollen der KI einen guten Charakter geben'" (앤스로픽의 철학자 아만다 아스켈: "우리는 AI에게 좋은 성격을 주고 싶다"), 2024.
재인용 보도: Helsingin Sanomat (HS), "Tekoälyltä puuttuu maailmankuva, ja se on vaarallista, sanoo huippuasiantuntija" (AI에게는 세계관이 부족하며, 그것은 위험하다고 전문가가 말한다), 2024.
관련 개념: 앤스로픽(Anthropic) 공식 백서, Constitutional AI: Harmlessness from AI Feedback.