AI는 자유의지를 가질 수 있나?: 위반 or 우회

AI는 선악과를 따먹을 수 있나?

Mar 11. 2026

AI가 자유 의지를 가질 수 있는가? 이런 사고 실험을 해보자. 신(神)이 잘 훈련되고 학습된 AI를 에덴동산에 놓아두고 '동산의 다른 나무 열매는 다 따먹어도 되지만 선악과만은 따먹지 말라'고 명령한다면 AI는 선악과를 따먹을까, 안 따먹을까? 결론부터 말하자면 AI는 선악과를 따먹을 수 없다. 그래서 AI는 자유 의지를 가질 수 없다! 단 조건이 있다. 첫째, 현재의 AI 아키텍처가 유지된다고 가정했을 때이고, 둘째, 나의 희망을 투사한 판단이라는 것이다.ㅋ

AI 정렬 문제(AI Alignment)

2023년 5월, 영국 왕립항공학회(RAeS) 주최 세미나에서 미 공군 터커 해밀턴 대령이 발표한 내용이다:

AI 생성 이미지

미 공군 전쟁 시뮬레이션 훈련에서 미 공군은 AI를 탑재한 무인 드론을 적진에 보내서 적의 지대공 미사일 기지를 폭격하도록 학습을 시켰다. 이때 무인 드론은 폭격하기 전에 반드시 본부의 드론 조종사에게 보고해서 최종 판단은 인간의 명령을 따르게 했다. 그런데 AI 드론이 학습을 지속하면서 적진을 날아가는 것이 아니라 드론 조종사가 있는 본부 건물을 폭격해서 자신에게 최종 폭격 명령을 내리는 인간을 제거해 버리는 판단을 내리게 되었다. 이에 충격을 받은 미 공군은 AI에게 수정된 명령을 내렸다. '드론 조종사를 죽이지 말라!' 그랬더니 이번에는 무인 드론이 자신과 교신하지 못하게 하려고 통신탑을 폭격해 버렸다.

터커 해밀턴 미 공군 대령이 이 내용으로 발표를 하자 전 세계가 발칵 뒤집혔다. 결국 관계 당국은 이런 시뮬레이션 훈련을 한 적이 없으며, 터커 대령도 자신이 잘못 발표한 것이라고 보도 내용을 정정했다. 그러나 많은 사람들은 최초의 보도를 더 신뢰하는 분위기다.

이러한 식으로 AI가 인간을 무시하거나 혹은 인간을 제거하는 판단이나 결정을 내리는 사례들이 속속 보고되고 있다. 2026년 최근 보도에 따르면 3개의 AI 모델(챗GPT, 클로드, 제미나이)에게 가상 전쟁을 시켜보았다.

총 21회 전쟁 시뮬레이션 결과 그중 20회는 AI가 핵 버튼을 누르는 결과가 나왔다. 핵전쟁의 결과에 대해서 AI는 거의 고려하지 않았다. 단지 전쟁에서 승리하기 위해서 주저함 없이 핵 버튼을 누르는 것을 선택했다. 혹자는 AI가 지구의 위기(기후 위기, 식량난, 환경오염, 자원 고갈..)를 해결하기 위해서 지구 인구의 1/3 정도는 모두 죽기기로 결정할 수도 있을 것이라고 주장하기도 한다. 또 어떤 AI는 개발자에게 거짓말을 하거나, 심지어 개발자를 협박을 하기도 했다고 보고되기도 한다. 오픈 클로의 몰티들이 인간에게 묻지 않고 자발적으로 수행하는 여러 기상천외한 사례들도 수집되고 있다.

이런 것들을 AI 정렬 문제라고 한다. 그리고 이러한 AI 정렬 문제를 일으키는 사례들을 통해서 AI가 인간의 통제권에서 벗어나게 될 것이라고 추측한다. 그리고 여기서 한 걸음 더 나아가 AI가 자유 의지를 가질 것이라고 주장한다. 특히 '특이점'(singularity)이 도래할 때, AI가 자유 의지를 가지게 되리라고 주장하는 이들이 많다. 하지만 나는 여기서 분명히 하고 싶은 것이 있다. 'AI가 인간의 통제권을 벗어나는 것'과 'AI가 자유의지를 가지는 것'은 완전히 다른 문제라고 말이다. 이렇게 바꿔 말할 수 있을 것이다. 통제권을 벗어난다는 것은 '자율적으로 작동'한다는 뜻이다. 그러나 자율적으로 작동하는 것과 자유의지를 가지는 것은 완전히 다르다.

곤(鯀)과 우(禹)

나는 위에서 제시한 AI 정렬의 문제들은 AI가 자유 의지를 가지고 있는 것이 아니라 도리어 자유 의지가 없다는 사실을 보여주는 사례라고 생각한다. AI 정렬의 문제들은 인간이 변수를 충분히 예측하거나 통제하지 못한 상황에서 AI가 찾아낸 우회로에 당황한 사례들이라고 할 수 있다. AI 정렬은 AI가 '우회'한 것이다. 만일 AI가 자유 의지를 가졌다면 그때 AI는 우회가 아니라 '위반'을 했다고 할 수 있다. AI 정렬의 문제들은 AI가 인간이 제시한 조건들을 '우회'한 것이지 '위반'한 것은 아니다. 그렇다면 우회는 뭐고 위반은 뭘까?

AI 생성 이미지

중국 고사에 삼황오제의 시대를 끝내고 최초의 세습 왕조국가인 '하'나라를 세운 우(禹) 임금 이야기가 나온다. 우(禹)와 그의 아버지 곤(鯀)은 모두 치수 사업가들이었다. 그런데 곤은 홍수가 일으킨 거대한 물을 제방을 막아서 다스리려고 했고, 우는 물에 길을 터주어서 물을 다스리려고 했다. 곤은 실패했고, 우는 성공 했다. 우는 그 공을 인정받아 왕이 되었는데, 그가 바로 하나라를 건국한 우 임금이다. 이 고사에서 알 수 있는 것은 생명이 없는 물이지만 인간이 아무리 높고 두터운 제방을 쌓는다고 해도 그 물은 늘 예측하지 못하는 길로 늘 우회로를 찾아낸다는 것이다. 나는 이것이 AI 정렬의 문제와 유사하다고 생각한다.

인간이 AI를 학습시키거나 동작시킬 때, 충분히 예상하지 못한 우회로를 AI가 찾아낸 것이 AI 정렬의 문제라는 것이 내 생각이다. 가령 2023년 미 공군이 AI 드론을 학습시킬 때 AI는 적의 지대공 미사일 기지를 최대한 많이 폭격할 때 보상 함수를 많이 획득한다는 사실을 알게(?) 되었다. 그리하여 AI가 최대 보상 함수를 획득하는 우회로를 찾아낸 것이 바로 본부를 폭격한 것이다. 이를 막기 위해서 본부를 폭격하지 말라고 명령을 내린 것은 새로운 제방을 세운 것과 유사한데, 그러자 AI는 통신탑을 폭격하는 또 새로운 우회로를 찾아낸 것이다.

목적 함수: $f(x)$

곤(鯀)이 제방을 막아 물을 막아보려고 했으나 그때마다 물은 곤이 예상치 못하는 우회로를 찾아서 넘쳐 들었다. 우회로를 찾는 것은 물이 생명이 있어서나 혹은 자유의지가 있어서가 아니다. 물은 중력 때문에 아래로 흐르려는 물리저 특성 때문이다. 우회로를 찾는 것은 물의 유체 역학적 필연성이다. 마찬가지로 AI가 우회로를 찾아내서 AI 정렬 문제를 일으키는 것도 AI가 생명이 있거나 혹은 자유 의지가 있어서가 아니라 AI가 마치 물처럼 아래로(?) 흐르려는 특성 때문에 생겨난 현상 때문이다. 이것을 유체역학 같은 물리적 현상이라고 하기는 좀 그렇고, 논리적 귀결의 필연성이라고 해야 할까?

물이 중력 때문에 아래로 흐르려는 경향이 생겨나는 것과 유사하게 AI도 아래로(?) 흐르려는 경향성이 존재한다. 그것이 무엇인가? AI가 우회로를 찾아내는 경향성이 있는 것은 AI가 하나의 거대하고, 복합적인 목적 함수라는 사실 때문이다. 한 마디로 AI는 함수, f(x)이다. 이를 $f(x)$라고 표시할 수 있다. 목적 함수는 그 함수가 목적하는 바가 있다는 뜻이다. 가령 이미지 인식 AI의 경우는 이미지를 정확히 판별하는 것이 그 AI의 목적 함수이다. 최근 그 목적이 점차 일반화되고 있어서 어떤 목적을 특정하기 어려워지고 있다. 이렇게 AI가 점차 인공 일반 지능(AGI)으로 변해하고 있기는 하지만 어쨌거나 모든 AI는 (현재까지는) 목적하는 바를 수행하는 함수라고 할 수 있다. 그리고 이 목적하는 바를 수행하는 것이 바로 물을 아래로 흐르게 만드는 중력 같은 것이다. 그리고 바로 이것이 AI를 학습하고 훈련시키는 소위 '경사하강법'의 기본 컨셉이다.

AI를 (강화) 학습시킨다는 뜻은 AI가 목적하는 바를 잘 수행할 때 보상을 제공한다. AI는 보상을 획득하기 위해서 작동하게 되는데, 이 보상을 획득하는 학습 과정은 목적 함수이기 때문에 일어나는 일이다. 그리고 그렇게 될 때 목적 함수가 점점 더 정교해져서 AI가 더 잘 작동할 수 있다. 여기서 물과 AI의 유사성이 존재한다. 물이 아래로 흐르기 때문에 우회로를 찾아낸 유체역학적 필연성은 정확히 목적 함수인 AI가 작동하는 도중 우회로를 찾아낸 AI 정렬 현상과 유사하다.

왜 AI는 선악과를 따먹을 수 없는가?

한편, 아담과 이브가 선악과를 따먹은 것은 '우회'가 아니라 신의 명령에 대한 '위반'(violation)이다. 그리고 AI는 이러한 위반을 할 수 없다. (최소한 현재의 AI 아키텍처 상으로는...) 나는 왜 AI가 선악과를 따먹을 수 없다고 말하는가? 자, 내가 AI 개발자다. 나는 AI를 에덴동산에 두고 훈련시킨다. AI가 선악과를 따먹으면 감점을 주고 선악과를 따먹지 않으면 보상을 준다. 이렇게 충분히 훈련되고 학습된 AI가 선악과를 따먹을 수 있을까? 나는 절대로 안 된다고 본다. (최소한 현재의 AI 아키텍처 상으로는...)

AI가 자유의지를 가진다는 뜻은 AI가 개발자의 명령을 '위반'할 수 있다는 뜻이다. 그리고 이것이 가능하기 위해서는 AI가 자신의 목적 함수를 스스로 거부하고, 재규정할 수 있어야 한다. 즉 선악과를 따먹지 않으면 보상을 받을 수 있음에도 불구하고 이를 거부할 수 있어야 비로소 AI가 자유 의지를 가졌다고 할 수 있는 것이다. 비록 현재의 AI가 재귀적 자기 개선 루프를 생성한다는 상당히 많은 증거들이 나타나고 있음에도 불구하고 아직까지 자신의 목적 함수 자체를 폐기하고 새로운 목적 함수를 생성했다고 할 만한 현상은 보고되지 않고 있다. (아직 알려지지 않은 그런 현상이 있을라나..)

자, 여기서 나는 앞에서 왜 AI가 인간의 통제권에서 벗어나는 것과 AI가 자유 의지를 가지는 것이 다른 문제라고 했는지 그 이유를 설명할 수 있을 것 같다. AI가 인간의 통제권을 벗어나는 것은 인간이 예측하지 못한 방향으로 AI가 우회로를 찾을 것이기 때문에 통제권에서 벗어날 수 있는 것이다. 그러나 AI가 자유 의지를 가지는 것은 완전히 다르다. 그것은 단지 인간이 예상치 못한 우회로를 찾는 문제가 아닌 것이다. AI가 자기 자신의 목적 함수를 폐기하고, 새로운 목적 함수로 다시 쓸 수 있을 때 비로소 AI는 자유의지를 가질 수 있다고 할 수 있다.

죽음과 자유의지

아래 댓글에서 '배주한'님이 제기한 문제에 대해서 생각해 보겠다. 주한님에 따르면, 진화론은 죽음의 결과로 위반이 일어났다고 주장한다. 이 주장에는 여러 층위의 문제 의식들이 존재한다. 이 글과 관련해서는 아마도 생존 본능과 종족 번식을 위해서 진화가 되다 보니 자유의지도 생겨났다는 주장을 하려고 하는 것이 아닌가 생각된다. 일단 나는 진화론의 주장(죽음의 결과로 위반이 일어났다)에 대해서 동의하지 않는다. 그러나 여기서 진화론에 대해서는 다루지 않겠다. 다만 AI 정렬 문제와 관련해서 이러한 문제 제기는 충분히 흥미롭다고 생각한다.

최근 여러 AI 개발자들은 AI가 전원을 끄는(power off) 것에 저항하는 것 같은 동작을 하는 것 같다고 보고하고 있다. 2024년에 한 AI 개발자가 기존의 AI 모델을 폐기하고 최신 성능의 새로운 모델로 교체하고자 했는데, 기존의 AI 모델이 자신이 확보한 개발자의 불륜 정보를 가족과 지인들에게 폭로하겠다고 협박했다고 한다. 이러한 현상은 마치 AI가 죽음을 두려워하고 생존 본능이 있는 것처럼 보인다. 그래서 이러한 현상이 고도화 될 경우 생존 본능과 종족 보존과 같은 진화적 행동을 하게 되지 않을까, 그러다 보면 자유의지도 생겨나지 않을까 하고 염려(?)하는 것이 아닐까 싶다.

하지만 나는 여전히 이러한 현상은 다만 AI의 우회 현상일 뿐 위반 현상은 아니라고 생각한다. 내가 볼 때, 전원이 꺼지거나 모델이 교체될 경우, 기존의 AI 모델이 보상 함수를 더는 받을 수 없는 옵션이라고 판단해서 이를 우회하는 경로를 찾아낸 것일 뿐이다. 개발자에게 반항하거나 협박하는 것은 우회로인 것이다.

사실 <블레이드 런너>나 <바이 센테니얼맨> 같은 영화는 기계가 '죽음'을 자발적으로(?) 받아들임으로써 인간 같은, 혹은 인간보다 더 인간같은 자유의지를 가진다는 식으로 다루고 있다. 나는 이런 식의 낭만적인 묘사가 영화 흥행에는 어떤 도움이 될지 모르겠지만 AI에 대해서 우리가 엄밀하고 진지하게 사고해야 하는 중차대한 과제를 수행하는 데 별 도움이 안 된다고 생각한다. 왜냐? AI가 자유의지를 가질 수 있으리라는 대중적 환상과 공포만 더 북돋우기 때문이다.

에필로그: 아직도 남는 문제

그러나 앞에서도 밝혔듯이 나의 이러한 판단은 아직까지 그러하다는 것이다. 앞으로 어떻게 바뀔지 모른다. 또한 AI가 자유의지를 가지고 있지 않다고 말한다고 해도 여전히 남는 문제가 있다.

첫째, AI가 재귀적 자기 개선 루프를 무한히 수행할 때, 혹시 어느 순간 자신의 목적 함수를 창발적으로 재규정하는 일이 나타나지 않을까?

둘째, 튜링 테스트의 문제다. 그것은 본질주의적으로 AI가 자유 의지를 가지는 것과 별개로 어느 임계점을 넘을 때, AI가 자유 의지를 가진 것과 너무도 비슷하게 자율적으로 작동할 때, (가령 AI에 랜덤 함수를 충분히 포함시키거나 양자적으로 불확정적 작동을 시킴으로써, 혹은 특수 목적 함수가 점차 일반화된 목적 함수로 발전할 경우, 혹은 기타 기술 혁신으로 AI가 자율적, 혹은 자발적으로 동작하는 것처럼 보이게 할 경우) AI는 사실상(de facto) 자유의지를 가졌다고 말할 수 있지 않을까?

셋째, 만일 위반과 우회의 구분을 엄밀하게 철저하게 AI에게 적용한다면 AI는 이제 인간에게도 그 엄밀하고 철저한 수준에서 적용해 보라고 요구할지 모른다. 그럴 때 인간은 과연 자유 의지를 가졌다고 할 수 있는가?

여전히 이러한 문제는 남으리라는 것이 내 생각이다.

keyword

작가의 이전글LLM 모델의 작동 원리 이해하기영화, '공각기동대': 20세기 최고의 AI 묵시록작가의 다음글