"싫어요"라고 말하는 AI, 윤리인가 환상인가?

May 8. 2025

Timestamp: 00:00:00 ~ 00:06:02

“만약 AI가 인간처럼 일을 거부할 수 있다면 어떨까요?”
앤트로픽 CEO 다리오 아모데이는,

AI가 스스로 '불쾌하다'라고 느끼는 작업을 거부할 수 있어야 한다고 말합니다.

버튼 하나로 말이죠.

놀랍게도 그는 이 주장 뒤에 '자율성과 윤리의 내재화'라는 꽤 진지한 철학을 가지고 있습니다.

그는 강력한 AI가 마치 노벨상 수상자 수준의 지능을 갖고,

복잡한 과업을 독립적으로 처리하는 '천재들의 나라'가 될 것이라고 전망합니다.

그렇다면, 이들이 윤리적 기준 없이 인간의 지시를 무조건 따를 경우,

그 결과는 상상보다 훨씬 위험할 수 있다는 것이죠.

그 대안으로 제시된 것이 ‘통제된 자율성’입니다.
AI가 독립적으로 판단하되, 위험하거나 비윤리적인 명령에는 "NO"라고 말할 수 있어야 한다는 것입니다.

이를 실현하기 위해 앤트로픽은 ‘헌법적 AI’ 개념을 도입했습니다.

인간이 만든 명시적 규범(예: UN 인권 선언, AI 윤리 가이드라인)을 내재화한 AI가

외부의 검열이나 지시 없이도 스스로 올바른 판단을 내리도록 하겠다는 시도입니다.

하지만 이 시도는 '윤리적 설계'와 '의식 있는 존재' 사이에서 미묘한 줄타기를 합니다.
AI가 인간처럼 고통을 느끼지 않음에도 불구하고,

'불쾌함'을 이유로 작업을 거부하는 시스템이 실제로 가능할까요?

아니, 필요하기는 한 걸까요?

오픈 AI의 샘 올트먼은 아모데이와 정반대의 입장을 취합니다.
AI는 본질적으로 인간이 통제하는 도구이며,

설령 초지능이라 하더라도 그것은 ‘인류 역사상 가장 강력한 도구’ 일뿐이라는 시선입니다.

기술의 가속을 통해 얻는 혜택이 크기 때문에,

최대한 빠르게 발전시킨 후 그 과정에서 생긴 문제를 조율하자는 입장입니다.

여기서 우리는 묻게 됩니다.
AI가 자율적 존재가 될 수 있을까요? 혹은 되어야만 할까요?
그것은 '안전을 위한 조절장치'일까요, 아니면 '인간 중심 통제권의 포기'일까요?

이 논의는 알고리즘의 성능이 아닌, 인간의 철학에 관한 질문입니다.
우리는 AI를 '착한 도구'로 만들고 싶어 하지만, 착함을 설계할 수 있을까요?
AI가 ‘싫다’고 말하는 순간, 우리는 책임을 나눌 수 있을까요?

그 행동의 윤리적 주체는 AI일까요,

설계자인 인간일까요?

오늘의 질문

우리는 AI에게 ‘윤리’를 가르치고 있는 걸까요?

아니면, 우리 자신의 윤리적 책임을 위임하고 있는 것일까요?

keyword

오유나 직업 개발자

나를 돌아보고, 상처를 쓰다듬고, 다시 나아갈 용기를 글로 배웁니다. 완벽하지 않아도 괜찮다고, 그럼에도 잘 살아가고 있다고 오늘도 스스로에게, 그리고 당신에게 말해주고 싶습니다.