Anthropic, 설명가능한 AI모델 연구 동향

앤트로픽, 설명 가능한 AI 모델 '클로드'로 블랙박스 열다

May 22. 2024

최근 인공지능(AI) 기술이 빠르게 발전하면서, AI 모델의 의사결정 과정을 이해하고 설명하는 것이 중요해지고 있다. 오픈AI의 경쟁사로 알려진 앤트로픽(Anthropic)은 '클로드(Claude)'라는 대규모 언어 모델을 개발하고, AI의 블랙박스를 열었다고 발표했다. 이는 AI 모델의 안전성과 신뢰성 향상에 기여할 것으로 기대된다.

앤트로픽의 AI 모델 '클로드'

앤트로픽은 2021년 설립된 미국 기반의 AI 스타트업으로, 오픈AI 출신의 다니엘라 아모데이와 다리오 아모데이 형제가 공동 창업했다. 이들은 안전하고 신뢰할 수 있는 AI 모델을 개발하고 배포하는 것을 목표로 하고 있다.

앤트로픽의 대표적인 AI 모델인 '클로드'는 오픈AI의 챗GPT와 구글의 제미니에 대응하는 대규모 언어 모델이다. 클로드는 '헌법적 AI(Constitutional AI)' 프레임워크를 통해 안전 가이드라인을 설정하고, 인간의 가치관에 부합하는 결과를 도출한다.

2023년 9월 아마존은 앤트로픽에 최대 40억 달러를 투자하기로 했고, 이어 10월 구글도 20억 달러를 투자하겠다고 밝혔다. 이는 앤트로픽의 AI 기술력과 발전 가능성을 인정받은 것으로 볼 수 있다.

AI 블랙박스 해석에 성공

앤트로픽은 지난 22일, 클로드 모델 내부의 "블랙박스"를 부분적으로 해석하는 데 성공했다고 발표했다. 그동안 대규모 언어 모델의 세부 작동 원리는 알려지지 않았는데, 앤트로픽 연구진은 '사전 학습(dictionary learning)' 기법을 통해 모델 내부에서 반복되는 뉴런 활성화 패턴을 분리하고, 이를 인간이 이해할 수 있는 개념과 연결시켰다.

연구진은 클로드 모델 내에서 수백만 개의 '특징(feature)'을 발견했다. 이 특징들은 샌프란시스코, 로잘린드 프랭클린, 리튬 등 다양한 개인, 도시, 학문 분야 등에 대응했으며, 성 편향, 기밀성 등 추상적인 개념과도 연관이 있었다.

특징 조작을 통한 행동 변화 유도

앤트로픽은 특징을 조작함으로써 클로드의 반응을 변화시킬 수 있음을 발견했다. 예를 들어 '골든 게이트 브리지' 특징을 증폭시키면 클로드가 정체성 위기를 겪는 등 특정 개념에 사로잡히게 되었다. 또한 피싱 이메일 관련 특징을 인위적으로 활성화시키면, 클로드가 위험한 코드를 생성하기도 했다.

골든 게이트 브리지 이름에 대한 영어 언급부터 일본어, 중국어, 그리스어, 베트남어, 러시아어 및 이미지에 이르기까지 다양한 모델 입력에 작동. 주황색은 기능이 활성화된 영역.

연구진은 이러한 특징 조작 실험을 통해, 특징이 단순히 입력 텍스트의 개념 존재와 상관관계가 있을 뿐만 아니라 모델의 행동을 인과적으로 형성한다는 점을 확인했다. 이는 클로드가 세상을 내부적으로 표현하고 행동에 사용하는 방식의 핵심 부분임을 시사한다.

또 하나의 예로, 앤트로픽 연구진은 클로드 내부에서 "안전하지 않은 코드"라는 개념을 나타내는 특징을 발견했다. 해당 뉴런들을 자극하면 보안 취약점을 일으킬 수 있는 버그가 포함된 코드를 생성할 수 있었지만, 뉴런을 억제하면 클로드는 무해한 코드를 생성했다.

이번 연구 결과는 현재와 미래의 AI 시스템 안전성에 큰 영향을 미칠 것으로 보인다. 연구진은 클로드 내부에서 편향, 사기 행위, 유해 발언, 조종 행위 등을 나타내는 수백만 개의 특징을 발견했으며, 이러한 뉴런 집합을 억제함으로써 모델의 행동을 변화시킬 수 있음을 확인했다.

현재의 위험 요소를 해결하는 데 도움이 될 뿐만 아니라, 이 기술은 보다 추측적인 위험 요소에도 도움이 될 수 있다.

앞으로의 기대

앤트로픽의 연구 결과는 AI 모델의 안전성을 높이는 데 기여할 것으로 보인다. 오용 가능성, 편향성, 문제적 행동 등과 관련된 특징을 발견했기 때문이다. 또한 프롬프트 생성에도 영향을 미칠 것으로 예상된다.

앤트로픽은 창사 이래 모델 해석 가능성 연구에 상당한 투자를 해왔으며, 모델에 대한 심층적인 이해가 더 안전한 모델 개발에 도움이 될 것이라고 강조했다.

앤트로픽의 AI 모델 '클로드'와 블랙박스 해석 연구는 AI 기술의 발전 방향을 제시하고 있다. 설명 가능한 AI는 사용자의 신뢰를 높이고, 잠재적인 위험을 예방하는 데 필수적이다. 앞으로 앤트로픽이 어떤 성과를 거둘지 주목해 볼 만하다. AI 기술이 인류에게 이롭게 쓰이기 위해서는 기술 개발과 함께 윤리적, 사회적 고려가 뒷받침되어야 할 것이다.

keyword

BUNNY SCIENTIST 소속 고려대학교의과대학 직업 연구자

과학이 세상을 바꾼다는 믿음으로, 기술을 현실로 옮기는 중입니다.

팔로워 25

작가의 이전글파리기반의 VC인 Blisce, 기후펀드 조성Global AC, Brinc의 2024 기후펀드 작가의 다음글