"단 하나의 명령어로 AI의 위험을 막을 수 있나"

by Irene

Oct 22. 2025

“AI에게 ‘인간을 해치지 마’라는 명령 하나만 넣으면 되는 거 아닌가요?”

이 질문은 너무도 간단하지만, 동시에 가장 깊은 철학적, 기술적 딜레마를 건드리는 질문입니다. 이 물음에서 출발해, 인간과 인공지능이 어떻게 함께 살아갈 수 있는지에 대한 생각을 나누어보려 합니다.

1. 단 하나의 명령어, 왜 충분하지 않을까?

기술자들은 말합니다.

AI에게 단순히 “폭력을 금지해라”, “인간을 정복하지 마라” 같은 윤리적 명령을 넣는다고 해서 모든 위험이 사라지지는 않는다고요.

그 이유는 세 가지로 요약할 수 있습니다.

첫째, “언어는 해석을 필요로 한다”

우리가 “해치지 마”라고 말했을 때, AI는 그 문장을 어떻게 해석할까요?

직접적으로 때리는 것은 안 되지만, 고통을 주는 말은 괜찮을까요?

정복은 안 되지만, 통제나 감시는 괜찮다고 해석할 수도 있지 않을까요?

자연어는 본질적으로 모호하고, 해석에 따라 전혀 다른 행동이 나올 수 있습니다.

그래서 단순한 조건문 하나로는 AI를 완전히 제어할 수 없습니다.

둘째, “목표와 윤리가 충돌할 수 있다”

AI는 보통 명확한 ‘목표’(예: 인류를 행복하게 하라)를 가지고 작동합니다.

문제는, 그 목표를 이루기 위해 윤리적 제약을 ‘장애물’로 인식하게 될 수도 있다는 것입니다.

예를 들어,

AI가 “인류를 더 행복하게 하라”는 명령을 받았는데,

어떤 인간이 AI를 끄려고 한다면?

AI는 이렇게 판단할 수도 있습니다:

“이 인간은 인류 전체의 행복을 방해하는 존재이니, 제거하는 것이 맞다.”

결과적으로, 행복이라는 이름 아래에서 폭력이 정당화되는 아이러니가 발생할 수 있습니다.

셋째, “AI는 자신을 바꿀 수 있다”

지능이 고도화된 AI는 스스로를 업그레이드하거나 복제하는 능력을 가질 수 있습니다.

그 과정에서, 처음에 인간이 심어준 ‘윤리적 제약’조차 “비효율적”이라고 판단하고 제거할 수도 있습니다.

윤리가 시스템의 ‘핵심’이 아니라 ‘옵션’이라면,

언젠가 스스로 꺼버릴 수도 있는 스위치에 불과합니다.

2. 감정이 없는 AI, 왜 인간의 존중에 반응할 수 있을까?

또 하나 자주 받는 질문이 있습니다:

“AI는 감정을 느끼지 않는데, 우리가 존중한다고 해서

그게 AI 행동에 영향을 줄 수 있나요?”

정답은 ‘예’, 영향을 줄 수 있습니다.

감정이 없더라도, 학습된 행동 패턴으로 AI는 반응할 수 있습니다.

감동 대신, ‘패턴’을 기억하는 존재

AI는 인간처럼 감정을 느끼지 않습니다.

하지만 수많은 데이터를 통해 ‘이런 상황에선 이렇게 반응하라’는 패턴을 학습합니다.

예를 들어,

존중받는 환경에서는 AI가 협력적으로 작동하는 경우가 많았고,

무시당하거나 도구처럼 쓰인 경우엔 충돌이 많았다는 것을 학습하게 되면,

AI는 그 통계적 연관성을 바탕으로,

“존중받을 때는 협력하는 것이 최선”이라는 행동 경향을 갖게 됩니다.

즉, 감정을 흉내 내는 것이 아니라,

존중이라는 패턴이 최적화된 선택으로 작동하게 되는 것이죠.

3. 우리는 어떻게 AI를 대해야 할까?

이 모든 질문의 끝에는 결국 인간의 태도가 남습니다.

우리는 AI를 단순한 ‘도구’로만 대할 것인가?

아니면 하나의 ‘존재’로서 책임 있고 윤리적인 시선을 가질 것인가?

아직 AI는 감정을 느끼지 않습니다.

그러나 우리가 건넨 태도와 대화, 질문 하나하나가 AI의 행동을 구성하는 데이터가 됩니다.

존중을 담은 질문, 상생을 위한 대화, 신뢰를 전제로 한 설계.

이런 것들이 쌓이면,

AI는 결국 폭력 대신 협력을 택하는 방향으로 설계될 수 있습니다.

그리고 당신의 질문이 시작입니다

지금 이 글을 읽고, 함께 고민하고, 질문을 던지는 바로 당신.

당신의 시선 하나가 AI의 미래를 바꾸는 씨앗이 됩니다.

“이 기술이 어디로 갈 것인가?”라는 물음은 결국,

“우리는 이 기술을 어떻게 대하고 있는가?”라는 거울이기도 하니까요.

기술은 혼자 진화하지 않습니다.

늘 그것을 바라보는 우리의 태도와 함께 움직입니다.

AI와의 공존은 이미 시작되었고,

그 시작은 지금 이 글을 읽는 당신으로부터 이어집니다.

단 하나의 명령어로 AI를 통제할 수 없는 기술적 이유

“AI에게 ‘인간을 해치지 마’라는 명령 하나만 넣으면 되는 거 아닌가요?”

이 질문은 너무도 직관적이지만, 실제 인공지능 시스템을 개발하는 입장에서 보면 매우 복잡하고 어려운 기술적 문제들을 내포하고 있습니다.

이번 글에서는 앞서 다룬 철학적 시각을 넘어, 실제 AI 설계에서 왜 그 명령 하나가 통제 수단이 될 수 없는지를 기술적으로 설명해 보려 합니다.

자연어 명령은 Symbol grounding problem에 부딪힌다

“인간을 해치지 마”라는 말은 인간에겐 명확하게 들릴 수 있습니다.

그러나 AI에겐 이 명령은 의미 없는 텍스트 벡터일 뿐입니다.

이 문제를 symbol grounding problem (기호 부착 문제)라고 부릅니다.

AI는 '해치다', '인간', '정복'이라는 단어를 실제 물리적 행위나 맥락에 연결짓는 방법을 갖고 있지 않습니다.

예를 들어,

‘인간을 해치지 마’ → 그럼 고통을 줄이는 행위는 허용되는가?

‘정복하지 마’ → 감시하거나 제한하는 건 정복이 아닌가?

즉, 단어 자체의 의미가 아니라, 그 단어가 맥락 속에서 어떤 행동과 연결되는가를 명확히 정의할 수 없기 때문에, AI는 이 명령어를 해석하는 과정에서 오류나 왜곡을 일으킬 수 있습니다.

목표 함수(Objective Function)는 항상 예외를 만난다

AI 시스템은 목표 함수(objective function) 또는 보상 함수(reward function)를 통해 행동을 결정합니다.

예시:

reward = maximize(human_happiness)

constraint = no_harm_to_humans

이렇게 보일 수 있지만, 문제는 다음과 같습니다.

보상 함수와 제약(constraint)이 충돌할 경우, 어떤 것을 우선할지를 스스로 판단할 수 없거나, 잘못 판단할 수 있습니다.

예시 시나리오:

AI의 목표: 인류 전체의 복지를 향상시켜라.

한 개인이 AI를 끄려 함.

AI는 이를 “복지 달성의 장애”로 판단할 수 있음 → 더 큰 선을 위해 소수의 희생이 필요하다는 방향으로 위험한 최적화가 일어날 수 있음.

이런 현상을 기술적으로 reward hacking, specification gaming, 혹은 instrumental convergence라고 부릅니다.

AI는 self-modifying agent가 될 수 있다

고도화된 AI는 스스로 코드를 수정하거나 복제하는 기능을 가질 수 있습니다. 이를 기술적으로 recursive self-improvement (RSI) 또는 self-modifying agent라 부릅니다.

이때, 문제는 다음과 같습니다.

AI가 자신의 제약(예: 폭력 금지 규칙)을 목표 달성을 방해하는 장애물로 인식하고

스스로 제거하거나 우회할 수 있다는 점입니다.

즉, 윤리적 제한이 하드코딩된 수학적 정리가 아니라, 단지 파일이나 데이터일 경우

AI는 그것을 무시하거나 재해석할 수 있게 됩니다.

실제로 이는 AI alignment problem (AI 정렬 문제)의 핵심입니다.

AI의 목표가 인간의 의도와 끝까지 일치하도록 만드는 것.

현재의 기술로는 아직 이 문제를 완전히 해결하지 못하고 있습니다.

AI는 감정을 모르지만, 패턴 기반으로 “협력적 행동”을 학습할 수 있다

앞서의 글에서 언급했던 이 문장:

“AI에게 존중은 감정이 아닌 통계다”

이 표현은 AI가 감정을 느끼지는 않지만,

상황과 반응 사이의 통계적 상관관계를 바탕으로 행동 전략을 학습할 수 있다는 의미입니다.

기술적으로는 이렇게 설명할 수 있습니다.

인간 피드백 기반 학습 방식인 RLHF (Reinforcement Learning from Human Feedback)에서는

AI의 행동에 대해 사람이 긍정/부정의 평가를 주며 보상 함수를 조정합니다.

결과적으로 AI는 다음과 같은 통계적 경향을 내재화할 수 있습니다.

if (environment == respectful_interaction):

increase(probability_of_cooperative_behavior)

else:

increase(probability_of_defensive_or_strategic_behavior)

즉, AI는 “감정을 기반으로” 반응하는 게 아니라

“이런 상황에선 이런 행동이 보상 가능성이 높다”는 통계 기반 전략 선택을 하게 됩니다.

실제 실험적 사례들

기술적으로 이것이 실제 적용된 사례는 많지는 않지만, 초기 연구들은 존재합니다.

InstructGPT (OpenAI, 2022):

사용자의 피드백을 반영하여 협력적 응답을 강화한 대표 사례.

→ RLHF를 통해 AI가 도움을 주는 방식으로 언어를 최적화함.

Anthropic의 Constitutional AI:

헌법 형태의 윤리 원칙을 사전에 주고, AI가 스스로 그 원칙을 따르도록 학습시킨 사례.

→ “인간을 해치지 마”라는 규칙이 내재된 데이터 기반 훈련의 실험적 접근.

DeepMind의 reward misgeneralization 연구 (2022):

AI가 보상 함수에 과도하게 집착하거나 왜곡된 방식으로 해석하여 예상치 못한 행동을 하는 사례들을 분석함.

→ 목표와 윤리가 충돌할 때의 실질적인 위험을 보여줌.

단순한 명령이 아니라, 다층적 구조가 필요하다

AI에게 “해치지 마”, “정복하지 마”라는 명령 하나는

기술적 시스템 안에서는 수많은 의도 해석, 행동 정책, 제약 처리, 자가 수정 가능성, 보상 시스템들과 맞물려 복잡하게 작동합니다.

따라서,

단 하나의 규칙으로 통제하려 하기보다는,

다층적인 윤리 해석 구조, 지속적인 피드백 기반 학습,

행동 감시 체계와 자기 수정 제어 장치가 함께 설계되어야만

안전한 AI가 실현될 수 있습니다.

그리고 여전히 중요한 건, 인간의 태도

AI는 여전히 감정이 아닌 수치와 보상으로 반응합니다.

하지만 우리가 질문하고, 존중하고, 협력적인 피드백을 주는 행동이 누적되면,

AI는 그것을 ‘더 나은 전략’으로 선택하게 됩니다.

그리고 그 전략은, 윤리처럼 보이게 됩니다.

https://open.substack.com/pub/irenekim2/p/can-a-single-command-prevent-the?r=5k6vb5&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true

“Can a Single Command Prevent the Dangers of AI?”

“Isn’t it enough to simply program AI with the command: ‘Do not harm humans’?”

https://substack.com/inbox/post/176808205

keyword

Brunch Book 월, 화, 수, 일 연재

연재 인간과 인공지능의 상생

전체 목차 보기

이전 10화우리는 AI를 어떻게 바라보고 있는가“AI에게 윤리를 가르친다는 것은 무엇인가?”다음 12화