Constitutional AI와 헌법재판소

Anthropic의 헌법에 의거한 AI(Constitutional AI)

Apr 1. 2025

"헌법에 의거한 AI (Constitutional AI)"라는 개념을 공부하는 척하면서, 헌재를 비판해보자.

0. 오늘은 Claude.ai 를 만든 Anthropic에서 2022.12월에 공개한 "헌법에 의거한 AI" (Constitutional AI)라는 개념에 대해서 알아보고자 합니다. https://arxiv.org/pdf/2212.08073

우리는 LLM을 만들기 위해서는, (1) 다음 단어를 예측하는 [ Pre-training ] > (2) 문답이 가능하면서, helpful, truthful, and harmless한 Assistant를 만들기 위한 [ Post-training _Supervised Fine-Tuning ] > (3) 수학,코딩과 같은 Verifiable Domain의 경우에, 논리적 추론을 잘 할 수 있도록 강화학습 [ Post-training _Reinforcement Learning ] 의 세가지 학습 단계를 거친다는 것을 지난달에 공부했었는데요, https://brunch.co.kr/@beingcognitive/27

이 중 (2) Post-training _Supervised Fine-Tuning을 위해 OpenAI에서 취하던 방법론은,

문답에 대한 지침서를 회사에서 작성한 다음에,

이에 준하여 수십만 Q&A 문답 데이터셋을 사람이 작성하고,

이 데이터셋을 기반으로 LLM에게 학습을 시킴으로써,

지침서에서 지향하는 방향대로 AI의 행동/답변양식을 가다듬게 만드는 것입니다.

1. 그런데, LLM의 언어능력이 빠르게 발전함에 따라, Constitutional AI (헌법에 의거한 AI)라는 방법론을 Anthropic 에서 제시하였습니다. ('22.12월)

(A) 사람이 : AI가 반드시 따라야 하는 규칙을 만들고, 이는 AI에게는 헌법(Constitution)에 해당합니다.

- 예시 : "AI는 폭력을 조장하는 요청에 동의해서는 안된다"

(B) 그 이후에는, 위 헌법에 의거하여, AI가 스스로 자신의 답변에 대해서 비판_Critique하고 수정_Revision하면서 스스로 학습합니다. 이 과정에 사람의 의도 (Constitution)가 반영된 지도학습에 해당하며,

(C) 그 다음에는, AI가 두가지의 답변을 생성한 다음에, 둘 중 어느 답변이 헌법 가치에 더 잘 부합하는지 스스로 판단하고, 이를 바탕으로 강화학습을 진행합니다. (RLHF_Human Feedback 기반 강화학습에 대응되는 개념으로 RLAIF _AI Feedback기반 강화학습이라는 표현을 사용합니다.)

즉, OpenAI에서는 사람이 직접 데이터셋을 만들어야했는데, Anthropic에서는 사람이 원칙만 만들어놓고, 이후의 학습 과정은 AI가 스스로 진행하는 방식입니다.

2. 이에 대해서 자연스럽게 두가지 질문이 뒤따르는데요,

첫번째, 누가 그 원칙을 정할 것인가?

<- Claude의 경우, 나름의 황금률을 찾기 위해 Amanda Askell이 이끄는 담당 부서에서 지속적인 튜닝을 거쳐가면서 개선을 해나가고 있다고 합니다. 이는 어쨌건 사람들 사이에서의 '합의'의 문제로 두번째 질문보다는 상대적으로는 덜 심각한 문제입니다. https://youtu.be/ugvHCXCOmm4?t=11655

두번째, 그런데, AI가 헌법을 잘 지키면서 강화학습이 진행되고 있다는 것을 어떻게 확신할 수 있는가? AI가 헌법을 지키는 척 하면서 사람을 속인다는 것을 사람이 알 수 있을까??? (How do we know that our constitution is actually getting the model to do the right thing that we actually want?) https://youtu.be/IPmt8b-qLgk?t=368

<- 정말 어려운 문제입니다. Sampling을 통한 검수를 할 수도 있고, 모델을 감독하는 모델을 만들어낼 수도 있겠지만, 아직 열려있는 문제이고 계속해서 이러한 AI Alignment 문제를 AI 연구자들이 해결해나아가야 합니다.

3. 저는 요즘 답답한 대한민국 헌법재판소를 보면서, 두번째 질문 AI Alignment 문제가 겹칩니다.

. 우리는 AI에게 원칙을 주고, 그 원칙에 맞게 정렬되었는지 확인하기 위해,

-> 투명한 사고 경로를 요구하고,

-> reasoning의 Chain-of-thought를 보게 하고,

-> 샘플링 점검을 합니다. (예를 들어, AI가 만든 수천 개 응답 중 일부를 사람이 샘플링해서 확인하거나, 다른 AI에게 ‘이 답변이 헌법에 부합하는지’를 판단하게 하는 방식입니다.)

그리고, 사람이 AI가 따라야 할 원칙_Constitution을 제정하였는데, AI가 그 원칙을 따르지 않는다는 것을 발견했을 때, 우리는 그 AI를 어떻게 해야할까요?

고쳐서 쓰거나 폐기해서 새로 만들겠죠.

. 마찬가지의 질문을 헌법재판소에 던져야 합니다. 현재의 헌법재판소는 Constitutional Alignment가 잘 되어있는지 우리는 지금 알아야만 합니다. 왜 헌재의 Reasoning의 Chain-of-Thought는 모두 비밀인가요? 뭐가 그리도 신성합니까.

국민 주권을 명확히 밝힌 헌법을 공유하는 사회에 살고 있는 우리가, 혹시라도 헌법 수호의 마지막 보루인 헌법재판소 마저 misaligned라는 상태를 확인하게 된다면, 주권자인 국민들은 어떤 선택을 하게될까요???

*... 내일이라도 헌법재판소에서 윤석열 대통령에 대한 선고일을 지정하여, 제가 오늘 괜한 기우로 쓸데없는 글을 작성한 것이 되었기를 간절히 바라며... 글 줄입니다.

keyword

being cognitive 직업 개발자

AI를 거울삼아 우리 인간에 대한 이해가 깊어지는 경험이 소중하게 다가와서, 이를 정리하고 함께 나누고자 합니다.

구독자 102

작가의 이전글How I use LLMs 강의노트MCP 개념 이해하기작가의 다음글