brunch

You can make anything
by writing

C.S.Lewis

by 르삭 Sep 08. 2024

AI 잡는 AI, Constitutional AI

AI에게 양심을 가르치는 방법


영화 아이로봇이나 터미네이터를 보면 인류를 위협하는 ‘악당 로봇'에 맞서 싸우는 ‘착한 로봇'들이 등장한다. 악당 로봇들의 가공할 전투 능력과 성능은 유지하면서도 인류를 수호하는 ‘착한 마음'을 간직한 이들은 결국 인류를 능가하는 악당 로봇들을 물리치고 인류를 멸망으로부터 지켜낸다.


이렇게 AI에게 착한 마음을 심어주면 어떨까? 일일이 수만 가지의 결정과 윤리적 판단에 대해 인간이 입력한 값을 따르는 게 아니라, '알아서 양심에 따라' 선한 결정을 내릴 수 있게 될 것이다. 세상이 변하고 상황이 바뀌어도 매번 시스템을 업데이트할 필요 없이, 인간의 윤리와 가치에 따라 올바른 결정을 내릴 수 있을 것이다. 이 공상과학과도 같은 시도가 현실에서 이루어지고, 또 적극 활용되고 있다. 이것이 바로 헌법적 AI(Constitutional AI)이다.


헌법적 AI(Constitutional AI)란?


헌법적 AI(Constitutional AI)는 인공지능 시스템에 윤리적 원칙과 가치를 내재화하는 방법론을 말한다. 헌법이나 UN 인권 선언과 같은 인간의 윤리적 기준을 담은 문서와 지침을 바탕으로 AI가 스스로 학습하고 피드백하는 과정을 통해 AI 시스템이 인간의 윤리적 가치와 일치하는 결정을 내리도록 설계하는 것이다. 인간 피드백 기반이 아니라 AI가 스스로 학습하고 수정하는 기법을 이용한다는 점에 주목해야 한다. 인간의 역할은 기본적인 규칙이나 원칙만 제공하는 데 머무른다.




헌법적 AI의 핵심은 AI 시스템에 내장된 윤리적 안전장치와 원칙들로, 이는 AI의 행동과 의사결정 과정을 안내한다. 마치 한 국가의 헌법이 그 나라의 운영을 위한 기본적인 규칙과 권리를 제공하는 것처럼, 헌법적 AI는 AI 시스템 내에 변경 불가능한 원칙들을 심어 정해진 윤리적, 기능적 경계 내에서 작동하도록 보장하는 것을 목표로 한다. AI 선도기업들 중에서는 Anthropic이 이 헌법적 AI를 적극 도입하여 활용하고 있다. 이론적 수준을 넘어서 실제로 상용화된 AI 기술이다.


헌법적 AI(Constitutional AI)는 대체 어떻게 작동하나?


헌법적 AI(Constitutional AI)는 지도학습(Supervised learning)과 강화학습(Reinforced learning)을 결합한 과정을 통해 개발된다. 먼저 지도학습 단계에서는 인간의 피드백을 통해 초기 AI 모델을 훈련시킨다. 모델의 출력을 자체적으로 평가하고 수정하는 과정에서 인간의 피드백에 따라 윤리적 기준과 인간의 가치를 학습한다.



출처: Anthropic

다음 강화학습 단계에서는 'AI 피드백을 통한 강화 학습'(RLAIF; RL from AI Feedback’) 방식을 사용한다. AI가 생성한 응답들 중 어떤 것이 더 윤리적이고 바람직한지를 또 다른 AI 모델이 평가하고, 이를 바탕으로 선호도 모델을 훈련시킨다. 인간이 아니라 AI가 AI를 가르치는 것이다. 이 선호도 모델은 최종 AI 시스템의 보상 함수로 사용되면서 AI가 윤리적이고 바람직한 행동을 하도록 유도한다. 전체 과정에서 '사고 연쇄(chain of thought)' 스타일의 추론을 활용하여 어떤 사고 과정을 통해 AI가 특정한 의사결정을 내리게 되었는지에 대해 투명성과 설명가능성을 높인다. 더욱 상세한 모델 개발 및 적용 방법에 대해서는 “Constitutional AI: Harmlessness from AI Feedback” 제하 논문이 공개되어 있어 누구나 자세히 들여다볼 수 있다.



헌법적 AI(Constitutional AI), 왜 필요한가


AI의 속도를 인간이 따라가기는 쉽지 않다


많은 이들이 AI 혁명이라고 여기는 시대의 문턱에 서 있는 지금, 자연어 처리, 의사결정, 문제 해결 등에서 전례 없는 능력을 보여주는 시스템들이 등장하고 있다. 이 시스템들의 복잡성과 자율성이 급속도로 발전함에 따라 AI가 인간사회에 해로운 방식으로 행동할 수 있는 잠재적 위험도 커지고 있다. 각종 안전장치와 윤리적 고려에 따른 설계, 배포 및 사용 필요성은 커져만 가는데 이 모두 큰 품이 든다. AI의 활용 영역이 넓어지면서 활용 방식도 다양해져 가는데, 인간이 일일이 개입하며 통제하기에는 벌써 숨이 벅찰 지경이다. 인간이 기계를 이기는 건 쉽지 않다.


헌법적 AI와 같은 AI 윤리 선생님이 필요한 이유다. AI 시스템은 인간보다 훨씬 빠른 속도로 대량의 결정을 내릴 수 있다. 또한 인간과 달리 반복된 업무에 지겨움을 느끼거나 피로해지지도 않고 그때그때 감정이나 이해관계에 따라 편견에 사로잡히지도 않는다(물론 이를 위해선 AI 모델 자체에 편향이 내재되지 않도록 유의해야 한다). 판단의 일관성을 확보할 수 있다. 또한 헌법적 AI에 내재된 윤리 가치에 따라 새로운 상황, 새로운 산업, 새로운 분야에서도 AI 시스템이 빠르게 적응하고 학습할 수 있다. 일일이 인간이 모든 새로운 변수나 상황에 따라 수만 가지의 결정과 산출물에 레이블을 다는 수고로움을 덜 수 있다. 규모와 속도, 일관성, 학습과 적응에 필요한 유용성, 장기적 안정성 모두 헌법적 AI를 성공적으로 적용할 때 얻을 수 있는 가치다.


헌법적 AI(Constitutional AI)의 한계


다만 헌법적 AI도 만능특효약은 아니다. 그 한계들도 뚜렷하다. 첫 번째는 역시 효율성에 대한 제약이다. 장기적으로는 인간을 활용한 시스템보다 큰 스케일로 활용가능할 수 있을지 모르나, 당장 헌법적 AI 도입에 드는 시간과 비용은 무시하기 어렵다. 추상적인 윤리적 원칙을 구체적인 알고리즘 제약으로 변환하는 것은 학제 간 전문 지식이 필요한 막대한 작업이다. 또한 인간의 피드백을 통한 지도학습과 인공지능의 피드백을 활용한 강화학습을 결합하는 이 중첩적 학습 구조가 추가적인 컴퓨팅 비용을 소요하게 된다. 헌법적 AI가 없는 더 가벼운 시스템보다는 효과성이나 효율성이 떨어질 수 있다. 윤리성을 확보하기 위해 감수해야 하는 어쩔 수 없는 트레이드오프이기는 하다. 일부 대자본과 기술력, 시장지배력을 지닌 선두 기업이나 되어야 접근 가능한 사치스러운 기술이라는 비판이 생길 수 있다.


보다 근본적으로는 헌법적 AI에 내재된 헌법적 원칙의 편향 가능성을 지적하지 않을 수 없다. 결국은 헌법적 AI도 누군가의 손에 의해 개발된 시스템이다. 헌법적 AI에 내재된 윤리적 원칙의 선택과 해석은 개발 과정에 관여하는 사람들의 문화적, 이념적 배경에 영향을 받을 수밖에 없다. 문제는 이들이 특별히 대표성을 지니는 인물들이 아니라는 점이다. 민주적 과정에 의해 전 세계 모든 이용자들을 공평무사히 대변할 수 있는 절차에 따라 선출된 이들이 아니라 일부 기업의 직원들에 불과하다.


Claude에는 Anthropic 직원들이 취사선택(curate)한 Constitution이 사용된다


이미 헌법적 AI를 활용하고 있는 Anthropic의 Claude만 해도 UN 헌장 등 문서도 활용했지만 결국에는 Anthropic 직원들이 취사선택한 헌법적 가치를 따른다고 명시되어 있다. 이들과 이들이 편집한 헌법적 원칙이 모든 이해관계자의 가치와 이익을 적절히 대표하도록 보장하고 있는지에 확신할 수 없다. 이들의 손에, 또는 이들의 손으로 개발된 AI에 윤리적 기준 설정이라는 막대한 권력을 맡기기에는 많은 의문점이 남는다.


이러한 한계에도 불구하고 AI라는 기술을 통해 AI가 불러올 사회적 해악을 막을 기술적 해결책이 모색되고 있다는 데 헌법적 AI의 의의가 있다. 인간의 한정된 역량에 비해 빛의 속도로 달려 나가는 AI의 발전과 윤리적 통제의 균형을 찾기 위해 필요한 접근법이다. 이를 계기로 AI로 AI를 다스린다는 패러다임 하에 많은 대안적 기술에 대한 고민들이 물꼬를 텄으면 하는 바람이다.


AI 제헌절? - 주권적 AI (Sovereign AI)에 대한 함의
헌법 공표 당시 기념사진

7월 17일은 제헌절이다. 우리나라가 국가의 근본 법규를 정립하여 국민의 권리와 의무, 국가의 운영 방식 전반을 스스로 규정하기 시작한 날이다. 식민지배와 한국전쟁이라는 격동의 시기를 거쳐 마침내 우리의 고유한 역사, 문화, 그리고 법 체계를 바탕으로 독자적인 헌법에 따라 주권을 효과적으로 행사할 수 있는 법적 기반을 갖추었다는 기념할만한 날이다. 헌법은 국가의 근본 법규로서 국민의 권리와 의무를 명확히 하고, 국가 권력의 행사 범위를 제한하는 중요한 역할을 수행하고 있다.


헌법이 국가의 주권을 상징하는 기본적인 요소라면, AI 기술은 21세기 국가 경쟁력의 핵심이 되고 있다. AI 기술은 단순한 도구를 넘어 사회 전반에 걸쳐 막대한 영향력을 미치며, 국가 안보, 경제 성장, 그리고 사회 질서 유지에 있어서 필수적인 역할을 담당하고 있다. 때문에 AI 기술 주권을 지키기 위해 각 국가별로 자체적인 AI, 주권적 AI (Sovereign AI)를 개발해야 한다는 주장이 확산하고 있다. 자국의 자체 데이터와 인프라로 역량을 갖춰 해당 지역의 언어와 문화, 가치관 등을 반영해 만든 AI가 필요하다는 것이다. 그렇지 않을 경우 기술과 문화 종속, 나아가 국가 정체성 약화로 이어질 수 있다는 우려에서다.


같은 논리로 우리의 헌법적 가치를 반영하고 수호하기 위해 자체적인 헌법적 AI를 개발해야 할 필요성이 있어 보인다. 일부 외국 기업에서 개발된 AI ‘윤리나침반'은 우리의 문화적 특성이나 법 체계와 충돌할 가능성이 있고 우리의 헌법 가치를 충분히 반영하지 못할 가능성이 있다. 우리 사회가 민주적 과정을 거쳐 정립하고 수호해 나가고자 하는 가치를 우리의 역량으로 보호하려면 우리가 개발, 통제, 감시할 수 있는 헌법적 AI가 필요해 보인다. 대한민국 헌법 제1조에는 “대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.”라고 규정되어 있다. 수입산 헌법적 AI(Constitutional AI)에 이 권력을 내맡길 수는 없는 일이다. 헌법적 AI에 대한 필요성은 AI 안전성 확보 그 이상의 의미를 지닌다.

이전 11화 AI 안전을 위한 악당 코스프레, Red Teaming
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari