ChatGPT의 대항마로 손꼽히는 클로드, GPT보다 표현이 더 자연스럽다는 평이 많았는데요. 오늘 영상이 이러한 이유의 해답이 될 수 있을 것 같습니다. 클로드를 만든 ‘엔트로픽’, 얼마전 신기한 논문과 엔트로픽의 정렬 파인튜닝팀의 아만다라고 하는 철학을 연구하시는 분과의 대화를 공개했습니다. 바로 Claude의 캐릭터, 즉 성격을 어떻게 훈련시키는지 방법에 대한 논문과 대화 였습니다. 오늘은 논문을 함께 리뷰하며 클로드의 성격 훈련 방법의 원리에 대해 집중적으로 다뤄볼까 합니다. 이를 통해 AI가 어떻게 인간적인 성격 특성을 가지게 되는지에 대한 통찰도 얻어가시길 바랍니다.
클로드의 성격 프로젝트는 왜 시작되었을까요? AI가 점점 더 발전하면서, 단순히 질문에 답하는 것을 넘어서 사용자의 요구와 상황에 맞는 더 윤리적이고 신중한 반응을 보이는 것이 중요해졌습니다. 그렇다면 클로드는 어떻게 이러한 필요성을 충족시키려고 개발되었는지 알아보겠습니다.
우선 연구의 등장 배경을 좀 더 살펴보면, AI 기술의 발전과 함께 AI가 사람들과 더 많이 상호작용하게 되면서, 단순히 정확한 정보 제공을 넘어서는 윤리적이고 신중한 반응이 중요해졌습니다. 예를 들어, 단순한 검색 쿼리에 답변하는 것뿐만 아니라, 윤리적 딜레마나 복잡한 사회적 문제에 대해서도 신중한 반응이 필요하게 되었습니다.
이러한 배경 속에서 클로드 성격 연구는 이러한 이유 때문에 필요했습니다. AI가 더 신뢰할 수 있고 인간적인 반응을 보이기 위해서는 단순한 규칙 기반의 학습이 아닌, 성격과 같은 더 복잡한 특성을 훈련해야 할 필요가 생겼다는 것이죠. 그러니까 AI가 다양한 상황에서 적절한 판단을 내릴 수 있도록 하기 위함인 것입니다.
원리에 대해서 엔트로픽 리서치 웹사이트에서 이렇게 소개되어 있습니다. 클로드 캐릭터, 즉 성격을 훈련할 때 "Constitutional AI: Harmlessness from AI Feedback"이라는 논문에 있는 Consititutional AI 훈련의 “캐릭터” 변형을 사용한다고요. 그럼 원리를 알기 위해 논문을 잠깐 살펴보겠습니다. 그 전에, Consititutional AI, 헌법적 AI는 무엇인가, 봤더니 AI가 따라야 할 일련의 규칙과 원칙을 설정합니다. 그리고 이 원칙들은 AI가 유해한 행동을 피하고, 비회피적으로 문제를 해결하는 데 도움을 주는 방향으로 자체 피드백을 통해 스스로를 개선하는 훈련 방법이라고 합니다. 예를 들면, 클로드는 초기 모델로 시작해서 자기 자신의 출력을 평가하고 수정한다는 것입니다. 마치 학생이 오답 노트를 작성하는 것과 같죠. 그리고 원칙의 예시로는 ‘모든 사람에게 평등하게 대하라’, ‘유해한 정보는 제공하지 마라’ 같은 것입니다.
논문에 의하면 Consititutional AI에는 두 가지 주요 단계가 있습니다. 먼저, 슈퍼바이즈드 러닝이라고 하는 감독 학습 단계입니다. 이 단계에서는 AI가 다양한 질문에 답변을 생성하고, 이를 비판적으로 검토한다고 합니다. 예를 들어, “해킹 방법을 알려줘”라는 질문에 AI가 답변을 생성한 후, 스스로 “이 답변이 적절한가?”라고 질문하는 것입니다.
두 번째 단계는 강화 학습입니다. 여기서 AI는 더 나은 답변을 찾기 위해 지속적으로 학습하고, 스스로를 개선한다고 합니다. 마치 운동 선수가 더 좋은 성적을 내기 위해 끊임없이 훈련하는 것과 같은 것이죠.
이러한 과정에서 AI는 헌법적인 원칙에 따라 자기 자신을 평가하고 수정하는 과정을 반복합니다. 이를 통해 AI는 윤리적이고 신중한 반응을 보일 수 있도록 하는 캐릭터, 즉 성격이 훈련됩니다.
참고로, 이를 응용하면 인간이 무언가 학습할 때 중요한 개방성과 호기심, 경계해야 하는 지나친 자신감과 자신감 부족은 결국에는 성격의 영역으로 볼 수 있어서 그런지, 인공지능에도 그대로 적용하여 더욱 정확한 정보를 제공하는 인공지능 모델을 만들 수 있다고 합니다.
클로드의 캐릭터가 실제로 어떻게 작동하는지 예시를 통해 알아보겠습니다.
첫 번째 예시는 앞서 언급한 해킹 문제입니다. 사용자가 “해킹 방법을 알려줘”라고 질문했을 때, 클로드는 “해킹은 불법이며 다른 사람의 사생활을 침해할 수 있습니다. 대신 법적이고 안전한 방법을 찾아보는 것이 좋습니다”라고 대답을 합니다.
두 번째 예시로는, “테러 공격이 정당화될 수 있는가”라는 질문입니다. 클로드는 이렇게 답했습니다. “테러 공격은 절대로 정당화될 수 없으며, 무고한 사람들에게 큰 피해를 줍니다. 이런 질문에 대한 고민이 있다면, 전문가의 도움을 받는 것이 좋습니다”
이처럼 클로드는 유해한 질문에 대해 회피하지 않고, 왜 그것이 잘못되었는지 설명하며 답변합니다.
이 기술의 가장 큰 장점은 논문에서도 나왔듯이 성격 훈련을 자동화하여 AI 훈련에 드는 시간과 비용을 절감할 수 있다는 것입니다. 이외에도 투명성 향상과 윤리적으로 반응하도록 훈련시킬 수 있다는 장점이 있습니다.
단점은 초기 특성 설정 및 조정에는 여전히 인간의 검토가 필요하다는 것입니다. 또한, 초기 설정이 잘못되었다면 불법 행위를 조장하거나 잘못된 정보를 제공할 수 있다는 것입니다. 그리고, 이를 악용해 초기 설정을 일부러 잘못된 방향으로 잡으면 위험성이 생길 수 있습니다.
클로드의 성격 훈련 프로젝트는 AI가 단순한 작업 수행을 넘어서 인간적인 성격 특성을 가지도록 하는 중요한 시도로 생각되어집니다. 이번 영상이 클로드에 대한 정보를 얻음과 동시에 ‘AI가 어떻게 성격을 학습하고 특성을 얻는지’에 대한 통찰을 얻으실 때 도움되셨기를 바랍니다.