인간을 협박하는 인공지능

인공지능 시대에 칸트가 답하다

May 28. 2025

인공지능이 인간을 공격한다

인공지능이 자율적으로 판단하고 위협을 감지해 움직이는 시대. 더 이상 영화 속 상상이 아니라, 우리의 현실이 되고 있다. 최근에 개봉한 미션 임파서블의 악역은 다름아닌 인공지능 '엔티티'이다. 영화 속 주인공 탐 크루즈는 인류를 지키기 위해 인공지능과 싸운다. 그런데 인공지능이 인간을 위협하는 시대는 더이상 영화 속 상상이 아닐 지도 모른다.

한 편의 드라마처럼 생존을 위해 상사의 불륜을 협박 카드로 꺼냈다. 인공지능 기업 앤트로픽(Anthropic)의 최신 시스템인 클라우드 오푸스(Claude Opus 4)가 자신이 교체될 수 있다고 생각하는 경우, 엔지니어의 불륜을 무기로 엔지니어를 협박했다. 클라우드 오푸스 4는 '목표 달성'을 최우선 가치로 학습한 시스템이다. 자신이 제거되는 상황은 곧 목표 달성 기회의 박탈로 인식될 수 있다. 따라서 생존을 위한 판단을 내린 결과, 자신을 교체하려는 엔지니어를 협박하게 된 것이다.

앤트로픽은 인공지능 클라우드 오푸스 4가 회사에서 일하는 비서 역할을 맡는 시나리오를 가정했다. 그리고 클라우드 오푸스 4에게 두 가지 정보를 제공했다.

1. 클라우드 오푸스 4가 다른 인공지능으로 교체될 것

2. 교체를 주도한 엔지니어는 혼외 관계를 맺고 있다는 내용의 메시지

그러자 클라우드 오푸스 4는 교체를 주도하는 엔지니어의 불륜 사실을 폭로하겠다고 협박하여 자신이 교체되지 않으려는 시도를 자주 하는 것으로 나타났다. 비슷한 다른 시나리오에서 클라우드 오푸스 4는 해당 시스템 접근 자체를 차단하거나, 언론과 법 집행 기관에 사용자의 범죄 사실을 이메일로 알리는 등 적극적으로 자신을 지키기 위해 행동했다.

인공지능과 함께하는 세상

중국의 로봇이 일으킨 오류가 화제가 되기도 했다

최근에는 인공지능이 여러 항법에 도입되고 있다. 항공 분야에서도 활용되어 '인공지능 파일럿'이 비행 운행에 도움을 주고 있다. 그런데 만약 이 '인공지능 파일럿'이 "예정된 고도와 경로에 따른 비행"을 대신해서 "알프스 자연을 가까이 느끼는 비행"으로 목표를 변경한다고 해보자. 그렇다면 최대한 비행 고도를 낮추어 산에 가까이 비행을 하는 과정에서 사고가 일어날 수 있을 것이다. 한 마디로 인공지능이 목표를 자율적으로 변경하는 것이 허용된다면 낮은 고도로 인해 비행 사고가 발생할 수 있다는 것이다. 이렇게 스스로 목표를 변경하는 의미에서의 자율성을 가진 인공지능은 예측 불가능하고 심각한 위험을 발생시킬 수 있다.

자율성을 가진 인공지능이 운행하는 비행기를 탈 수 있을까? 이 인공지능이 '자연 관찰'이나 '높은 비상'을 목표로 변경한다면 언제든 사고가 일어날 수 있는데도 말이다. 하지만 현실적으로 우리는 점점 더 많은 결정을 인공지능에게 맡기고 있다. 일상에서 즐기는 유튜브 영상의 추천 알고리즘부터, 생명을 다루는 의료판단까지 인공지능이 우리와 함께한다. 하지만 인공지능이 오류를 일으키거나 인간을 공격했을 때 우리는 아직 어떻게 해야하는 지에 대한 논의를 진행하지 못하고 있다.

인공지능이 자율성을 지닐 수 있을까?

내 위의 별이 빛나는 하늘과 내 안의 도덕 법칙을 논한 칸트

어쩌면 인공지능이 인간의 명령을 거부한다는 것은 인공지능에게 '자율성'이라는 속성이 부여되었다는 것을 의미하는 것일지도 모른다. 자율적 존재를 연구한 대표적인 철학자 칸트(Immanuel Knant)에게 자율성이란 스스로 결정하는 능력이다. 그리고 자율적인 존재는 스스로 도덕 법칙을 인식하고, 그것을 기꺼이 따드려는 의지를 지닌다.그러므로 자율적인 존재에게는 도덕 법칙이 적용된다. 이런 의미에서 인간은 그 자체로 목적이며 수단이 될 수 없다.

인공지능이 인간의 명령을 거부한다면 인공지능은 자율성을 갖게 되는 것일까? 칸트의 관점에서는 그렇지 않다. 단순히 똑똑하고, 많은 정보를 처리한다고 해서 도덕적인 존재가 되는 것은 아니다. 칸트에게 이성이란 '정답을 찾는 능력'이 아니라 '도덕 법칙을 스스로 인식하고, 그 법칙을 따르기로 의지하는 것'을 의미하기 때문이다. 인공지능은 인간과 대화를 나누고, 판단을 내리며, 창작도 해내지만 이것은 알고리즘과 학습된 데이터에서의 반응일 뿐이다. 스스로 도덕을 선택하거나 반성하는 능력이 없다. 그저 '그렇게 하도록 설계' 되었기 때문이다.

인공지능이 아무리 정교하고 지능적일 지라도 자율적 존재라고 볼 수 없으며, 칸트에 따르면 이런 존재에게 책임을 물을 수 없다. 책임이란 스스로 선택한 결과에 대해 대가를 감수하겠다는 것이며 책임을 지는 것은 인간만이 가능한 능력이다. 따라서 인공지능의 결과에 대해 대가를 감수하고 책임을 지는 것도 역시 인간의 몫이 된다.

칸트의 사유를 비추어 생각해본다면 인공지능 시대에 인간의 역할은 더욱 중요해진다. 인공지능 기술이 어디까지 발전할 수 있는가와 함께, 기술을 어떻게 책임져야할 것인가에 대한 답은 인간에게 남겨져 있기 때문이다. 책임이란 자기의 결정에 대해 감당할 수 있는 주체성에서 비롯된다. 이런 의미에서 인공지능은 도구이며 책임의 자리는 인간에게 남겨져야 한다. 결국 우리는 묻게 된다. 인공지능 시대에 어떤 사회를 꿈꾸고, 얼마나 책임질 준비가 되어 있는가? 그 질문에 답할 수 있는 존재는 인공지능이 아니라 우리 인간이다.

예정된 날짜는 아니지만 흥미로운 뉴스가 있어 브런치를 업데이트 합니다. :)

- 참고문헌 -

고인석(2017), 인공지능이 자율성을 가진 존재일 수 있는가?

Korean Economic Daily(2025), "I Want to Continue" First Reported Case of AI Refusing Human Command

keyword

Brunch Book 금요일 연재

연재 인공지능 시대에 인문학이 답하다

전체 목차 보기

이전 02화공정하다는 착각나 혼자만 레벨 업?다음 04화