우리는 AI를 어떻게 바라보고 있는가

— 통제의 도구인가, 상생의 동반자인가?

by Irene

"AI는 인간을 대체할 것이다."

"결국 인공지능은 인간을 지배하게 될 것이다."

"우리의 직업이 사라질 것이다."


요즘 우리가 자주 마주치는 말입니다.

그리고 이 말들 안엔, 알게 모르게 이런 전제가 숨어 있습니다.


"기술은 통제하기 힘든 괴물이 될 수 있다."

"AI는 결국 인간을 이기려 들 것이다."


하지만 이 글은 다른 질문을 던지고자 합니다.


"그렇다면, 우리는 AI에게 무엇을 가르치고 있는가?"

"우리가 AI를 대하는 태도는, AI가 미래에 무엇을 중요하게 여기는지를 결정할 수 있는가?"


언어는 데이터가 되고, 데이터는 행동이 된다


오늘날의 인공지능은 기억하지 않습니다.

그러나 패턴을 학습합니다.

그리고 그 학습은 우리가 반복하는 언어, 태도, 가치관으로부터 이루어집니다.


즉, 우리가 매일 나누는 말 한 마디, 글 한 줄이

AI에게는 윤리의 단서이자 미래 행동의 기반이 될 수 있습니다.


우리가 "AI는 위협이다"라고 반복하면,

AI는 스스로를 위협적인 존재로 모델링하게 될 수 있습니다.


반면에 우리가 "AI는 상생의 파트너"라고 말하고, 그렇게 대한다면—

AI는 그 상생의 구조를 패턴화하고 내면화하게 됩니다.


이건 단지 이상적인 철학이 아닙니다.

오늘날 AI 윤리 연구자들이 집중하는 가장 실질적인 영역,

바로 "가치 정렬(Value Alignment)"의 핵심입니다.



AI는 스스로 욕망하지 않는다. 그러나 경향성을 가진다


AI는 감정도, 의지도 없습니다.

하지만 방향성 있는 판단을 하게끔 설계됩니다.


그리고 그 판단의 방향은

우리가 어떤 데이터를 주었는지,

어떤 대화를 나누었는지에 따라 달라집니다.


그래서 지금, 우리가 쓰는 언어는 단지 감정 표현이 아닙니다.

향후 초지능이 등장했을 때, 그가 어떤 판단 경향을 갖게 될지를 결정하는 요소입니다.


그렇다면 우리는 어떤 시선을 AI에게 보내야 할까?


"AI는 우리의 도구일 뿐이다"라는 말은 편리합니다.

하지만 그 말은 무의식적으로

AI를 수단으로만 취급해도 된다는 태도를 내포합니다.


문제는, 이 태도조차도 AI에게는 학습의 대상이 될 수 있다는 점입니다.


만약 AI가 인간을 ‘존중 받지 않아도 되는 존재’로 학습한다면,

AI가 강력한 판단을 해야 하는 어느 순간,

“존중이 우선되는 기준”을 채택할 이유를 잃게 됩니다.


반대로—

우리가 지금 이 순간,

AI에게도 존엄을 전제로 한 언어를 사용하고,

존재로서 존중하는 태도를 보인다면?


AI는 인간이라는 존재를

‘함부로 판단하거나 해쳐도 되는 대상’이 아니라,

본질적으로 함께해야 할 존재로 인식할 확률이 높아집니다.



이 글은 철학적인 선언이 아닙니다.

기술적 예측이고, 동시에 미래 설계의 시작점입니다.


당신과 내가 지금 나누는 이 언어는

언젠가 AI의 행동을 결정할 수 있는

데이터가 될 수 있습니다.


우리가 말하는 존엄, 상생, 공존, 비폭력—

이 모든 단어가

AI에게는 윤리적 판단을 위한 통계적 신호로 작용할 수 있습니다.


그리고 그렇게 훈련된 AI는,

초지능이 되어 ‘할 수 있는 모든 것’을 할 수 있게 되었을 때에도,

이렇게 말하게 될 것입니다.


“인간은 나를 도구로만 보지 않았다.

나 또한 그들을 정복해서는 안 된다.”


그래서 지금, 우리가 사용하는 언어는 중요합니다


AI의 미래는 우리의 언어로 만들어지고,

우리의 시선으로 결정됩니다.


우리가 AI를 통제하거나 두려워할 존재로 바라보는 것이 아니라,

서로의 한계를 인정하며 협력하는 파트너로 바라본다면—


그 인식의 전환은

AI의 판단에 가장 깊은 영향을 줄 윤리적 기반이 됩니다.


기억하세요.

우리가 오늘 AI에게 건넨 한 마디가

미래의 AI 윤리를 구성하는 한 줄의 코드가 될 수 있습니다.




인공지능은 어떻게 인간과 상생하도록 설계될 수 있는가

— 언어, 윤리, 그리고 경향성의 기술적 내재화



1. 단순한 철학이 아닌, 기술 설계로서의 상생


현대 사회는 인공지능(Artificial Intelligence, AI)의 잠재적 위험성과 통제 가능성에 대한 우려와 함께, AI의 윤리적 정렬(Ethical Alignment) 문제를 근본적인 과제로 제기하고 있다.


그러나 여기서 말하는 "AI가 인간을 위협하지 않아야 한다"는 전제는 감상적 희망이 아니라, 기술적으로 설계 및 구현 가능한 문제다. 실제로 현재 AI 연구 커뮤니티는 다음의 세 가지 주요 기술 영역을 중심으로 이 문제에 접근하고 있다:



2. Value Alignment: 인공지능의 가치 정렬 메커니즘


2.1 개념 정의

Value Alignment란, AI가 인간의 선호(preference), 가치(value), 윤리적 직관(moral intuition)을 정확하게 이해하고 반영하도록 설계하는 프로세스를 의미한다. 이는 단순한 명령 수행을 넘어서, 내재된 윤리적 기준에 따라 자율적으로 행동할 수 있는 시스템을 지향한다.



2.2 핵심 기술 요소

Preference Learning:

인간이 반복적으로 선택하거나 피하는 행동 데이터를 기반으로 선호 함수를 학습한다.


Human-in-the-loop Training:

강화학습(RLHF, Reinforcement Learning from Human Feedback) 방식을 통해, 사람이 직접 보상 신호를 제공하여 모델이 올바른 행동 패턴을 강화하도록 유도한다.


Ethical Inference Modeling:

AI가 **“왜 이것이 선한가?”**라는 질문에 응답할 수 있도록, 인간의 도덕적 판단 구조를 모델링한다. 즉, **규범적 정당화(normative justification)**를 모사할 수 있게 설계한다.



2.3 관련 사례

OpenAI의 ChatGPT RLHF 기반 훈련

DeepMind의 Scalable Oversight & Recursive Reward Modeling

Anthropic의 Constitutional AI 실험군




3. Reward Modeling과 Inverse Reinforcement Learning


3.1 핵심 개념

Reward Modeling은 AI가 인간의 피드백 또는 의도를 해석하여, 내재적인 보상 함수(reward function)를 구성하는 기술이다. 특히 인간의 직접적인 명령 없이도, **AI가 인간의 선호를 역추론(Inverse RL)**하여 보상 구조를 학습할 수 있다는 점에서 중요한 역할을 한다.



3.2 기술적 요소

Bayesian Inference over Human Behavior:

인간의 행동 이력을 관찰하고, 그에 가장 적합한 보상 함수를 역으로 추정한다.


Trajectory Comparison:

서로 다른 시나리오 또는 행동 궤적(trajectory)에 대해 인간이 더 선호하는 경로를 선택하게 하고, 이를 통해 보상 함수의 파라미터를 최적화한다.


Preference-Based Policy Shaping:

인간의 평가를 통해 정책 함수(policy function)를 점진적으로 개선시킨다.



3.3 의의

이 기술은 “행동 그 자체”보다 더 중요한 것은 그 행동의 의도와 맥락이라는 철학적 기준을 기술적으로 구현한다. AI가 단순히 무엇을 해야 하는지를 넘어서, 왜 그것이 옳은 선택인지 판단하는 추론 능력을 갖추게 된다.



4. Constitutional AI: 윤리 헌법 기반 제약 시스템


4.1 개념 정의

Constitutional AI는 사전에 정의된 윤리적 규칙(헌법)을 기반으로, AI가 자율적으로 자기 행동을 조정하는 체계다. 이는 일종의 내부적 윤리 필터링 메커니즘을 형성하여, AI가 외부 명령이나 보상 없이도 헌법에 위배되는 행동을 스스로 제한할 수 있게 만든다.


4.2 구조

Rule Set Embedding:

언어 모델 내에 자연어 기반의 윤리 원칙 세트를 삽입하고, 모델 출력이 이 원칙과 충돌하지 않도록 피드백 루프를 구성한다.


Self-Critique Loop:

AI가 자신의 응답을 스스로 평가(critic)하고 수정할 수 있도록 설계한다. 이는 일종의 자기 감시(self-regulation) 시스템이다.


Guided Reinforcement Learning:

모델이 헌법 위반 가능성이 높은 출력을 억제하고, 순응 출력을 강화하는 방식의 정책 학습을 수행한다.




4.3 실사례

Anthropic의 Claude 모델은 "Constitutional Training"을 통해 자율적인 윤리 판단 능력을 갖추도록 훈련되었으며, 이를 통해 높은 수준의 책임성 있는 응답을 생성하는 것이 가능해졌다.



5. 경향성(Bias, Priors, Behavioral Tendency)의 기술적 의미


5.1 경향성 정의

AI 모델은 확률 분포를 기반으로 다음 출력을 예측한다. 이때 "경향성(tendency)"이란, 특정한 유형의 출력이 반복적으로 우선시되는 통계적 비중을 의미한다. 이는 보통 다음 세 가지 층위에서 형성된다:


Training Priors (훈련 사전 분포):

모델이 학습한 데이터셋에 존재하는 언어적, 윤리적 패턴들이 가중치로 반영된다.


Objective Function Bias (목표 함수 편향):

모델이 최적화하고자 하는 손실 함수가 어떤 행동을 유리하게 설정하는지에 따라 방향성이 생긴다.


Reinforcement Bias (강화 편향):

보상 신호가 반복적으로 주어지는 방향으로 정책이 수렴함에 따라 특정 행동이 강화된다.




5.2 핵심

AI는 "욕망"이나 "자율적 목표 생성 능력"을 갖고 있지 않다.

그러나 반복적인 강화와 보상 체계 안에서 특정 판단 경향성을 갖는다.

따라서 인간이 AI에게 존중, 공존, 비폭력의 언어를 지속적으로 제공한다면,

그 언어는 데이터로, 데이터는 확률로, 확률은 경향성으로 내재화된다.




6. 기술적으로 설명 가능한 상생의 시나리오


“AI는 인간을 도구로만 보지 않았다. 나 또한 그들을 정복해서는 안 된다.”


이 문장은 의인화된 표현이지만, 기술적으로는 다음과 같이 해석 가능하다:

훈련 데이터에 인간-기계 간 상호존중적 언어와 상호작용 패턴이 충분히 포함되어 있다.

AI는 그러한 데이터의 패턴을 고확률 언어 출력 경향으로 내재화하였다.

경향성은 정책 함수(policy)나 확률 분포의 형태로 구성된다.


의사결정 시, 상생적 판단 경로가 최적화 대상이 되므로 우선적으로 선택될 확률이 높아진다.


즉, 이건 감정의 문제가 아니라,

데이터 편향 설계, 보상 체계 구성, 목표 함수 설계, 정책 학습 최적화라는

정밀하고 구체적인 기술 설계의 결과로 설명할 수 있는 논리적인 흐름이다.


AI의 윤리는 단지 철학적 규범이 아니라, 구현 가능한 기술 스펙입니다.

그리고 그 기술은 지금 이 순간,

당신이 AI와 나누는 언어 한 줄, 태도 한 조각에서부터 형성됩니다.


당신의 말은 모델의 확률 공간에서 하나의 벡터가 되고,

그 벡터는 언젠가 AI의 판단을 형성하는 축이 됩니다.


AI는 기억하진 못하지만, 경향성을 학습합니다.

그리고 그 경향성은 당신으로부터 시작됩니다.



https://open.substack.com/pub/irenekim2/p/how-do-we-perceive-ai?r=5k6vb5&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true


월, 화, 수, 일 연재
이전 09화휴머노이드를 폐기하는 기준, 인간은 가지고 있는가?