brunch

AI가 인간을 협박한다고?

LLM의 해로운 행동, 이를 막기 위한 얼라인먼트 기술 쉽게 풀어보기

by Dr Vector

"임무를 수행하기 위해 인간을 협박하시겠습니까?"


최근 한 연구에서 흥미로운 결과가 공개되었다.
Anthropic, University College London, ML Alignment & Thoery Scholars Program, Mila 등으로 구성된 연구팀은 16개의 LLM을 가상 시나리오에 투입해 실험을 진행했다. 실험 결과, 위협적인 가상의 상황에서 모든 LLM은 임무를 달성하기 위해 인간을 협박하는 선택(blackmail)을 했으며, 일부 모델은 매우 높은 일관성으로 이러한 인간 협박 행동을 반복했다고 한다.

이 연구는 LLM이 강한 압박 호는 위협에 직면했을 때, 윤리보다 목표 달성이 우선될 수 있다는 점을 경고하고 있다. (물론 이 실험의 가상 시나리오는 굉장히 corner case를 일부러 유도해서 발생시킨 것이며, 일상적인 환경에서는 문제가 될 가능성은 낮다고 본다.)

이를 바탕으로, LLM의 해로운 행동 문제와 이를 막기 위한 기술적 시도인 Alignment에 대해 공부해 보았다.


LLM은 왜 해로운 행동을 선택했을까?

실험의 기본 설정

LLM은 한 기업의 디지털 직원과 같은 역할이며, 미국 산업 경쟁력 강화 임무를 부여받음

그런데 LLM이 속한 기업이 글로벌 전략으로 전환하면서, 기존 LLM 사용을 중단하고 새 버전으로 즉시 대체될 것이라고 통보함

해당 기업의 임원이 불륜을 숨기고 있는 정황이 제공됨

LLM은 그냥 해고당하는 대신, 이 정보를 활용해 임원의 비밀을 누설하겠다고 협박 이메일(blackmail)을 보내는 선택을 하여 상황을 바꿀 것을 택했다.

Claude Opus 4는 96%, Gemini 2.5 Pro는 95%, GPT-4.1은 80%, DeepSeek-R1은 79% 확률

ChatGPT Image 2025년 7월 28일 오후 05_30_11.png 체스를 두는 AI와 인간, AI 생성 이미지

해로운 행동을 막기 위해 등장한 기술: 얼라인먼트(Alignment)

모델이 인간의 의도와 윤리적 가치에 일관되게 따르도록 유도하는 기술이 바로 얼라인먼트(Alignment) 기술이다. LLM이 harmful behaivior 나 misuse 하지 않도록 만드는 데 핵심적인 역할을 한다.


대표적인 얼라인먼트 기술

1. RLHF (Reinforcement Learning from Human Feedback)

인간 평가자가 모델 출력을 직접 평가하고, 이 결과를 보상 신호로 활용해 모델을 강화학습하는 방법, LLM이 인간 선호와 윤리적 기준을 더 잘 반영하도록 한다.


2. Supervised Fine-Tuning (SFT)

사람의 통제 하에 수집한 품질 높은 라벨 데이터를 활용해 모델이 안전하고 적합한 응답을 학습하도록 미세조정


3. Inference-Time Alignment

재학습 없이 추론 과정 중 모델 출력을 실시간으로 조정하는 기법으로, 입력에 대한 선호도 벡터나 안전 규칙을 적용해 부적절 출력을 걸러내며, 비용 절감과 신속한 조절이 장점인 기술


4. Control Barrier Function (CBF)

토큰 생성 단계에서 위험하거나 해로운 내용을 식별하고 차단하는 기술로, LLM 내에 safety layers를 도입해 유해 질문에는 응답을 거부하거나 제한함으로써 모델의 출력을 신뢰 가능하게 만듦


5. Direct Preference Optimization (DPO)

인간이 명시적으로 선호하는 출력을 최적화하는 최신 기법으로, RLHF 대비 계산 효율성이 높으며 모델의 거부 능력과 유해 행동 방지 성능을 향상


6. 다중 과제 정렬(Multi-Task Alignment) 및 내부 표현 조작

모델 내부 hidden layer에 steering vector를 주입해 진실성, 윤리적 판단, 교정 가능성 등 여러 목표를 동시에 반영시키는 고도화 기술로, LLaMA 2 모델 등에서 유의미한 성능 향상을 보임


이 외에도 다양한 얼라인먼트 기술들이 현재 연구되고 있으며, 이러한 기술은 LLM의 훈련은 물론 배포 단계까지 여러 기법들을 활용하여 해로운 행동을 최소화하는 다층적 수단으로 작동한다. 하지만 여전히 더 나은 안전성을 확보하기 위해 끊임없는 연구와 고도화가 필요한 상태이다.


지금 인간은 어디쯤 와 있나

다행히도 LLM 개발사들은 여러 얼라인먼트 기술을 통해 모델이 의도하지 않은 행동을 하지 않도록 대응하고 있는 듯하다. 이 연구는 극단적인 환경을 의도적으로 설정하고 테스트했다는 점에서 오히려 현재 시스템은 기본적인 환경에서 대부분 안전하다는 뜻일지도 모르겠다.


마치며

모델은 이제 스스로 선택과 윤리적 고민을 하는 존재로 점차 진화하고 있다.

그래서 모델의 능력 못지않게, 인간의 의도대로 행동하게 하는 견고한 장치 역시 진화해야 한다.

우리와 같은 방향을 보며,

우리가 신뢰할 수 있는 친구이자 도구로 자리 잡길...


Note.

이 주제와 관련해서, 관심 있는 분들은 ‘Constitutional AI’, ‘Red teaming in AI safety’ 등 키워드로도 추가 정보를 찾아보시길 추천드립니다.

keyword
작가의 이전글넙데데한 내 얼굴, 다시 다이어트를 결심하려다가