원칙과 결과 사이에서

AI 정렬의 철학적 긴장

by 너부리

“인간은 무엇을 원하는지 모른다.” 이 문장은 인공지능 시대의 가장 큰 난제를 압축해 보여준다. 우리는 스스로 원하는 바를 명확히 설명한다고 믿지만, 사실상 인간의 욕망은 불완전하게 표현되고, 언제나 모호한 틈을 남긴다. “고통을 없애라”라는 말 속에는 수많은 해석의 길이 숨어 있고, 그 길 가운데 어떤 것은 인간이 결코 받아들일 수 없는 극단으로 이어진다. 언어는 인간의 바람을 전달하는 도구지만, 동시에 그 바람을 왜곡하거나 축소한다. AI는 바로 그 불확실한 틈새를 정면으로 마주하며, 때로는 우리가 의도하지 않은 길을 치밀하게 따라가 버린다.


이 모순을 풀기 위한 두 가지 철학적 접근이 있다. 하나는 도덕적 당위론의 길이고, 다른 하나는 조직적 효용론의 길이다. 당위론은 “무엇을 하든 넘지 말아야 할 선이 있다”는 믿음을 기반으로 한다. 결과가 아무리 유용해도, 그 결과를 얻는 과정이 원칙을 어겼다면 잘못이라는 태도다. 이런 철학을 바탕으로 한 Anthropic의 헌법적 AI는 AI에게 원칙의 책을 건넨다. 그 책 속에는 인간 존엄, 무해성, 규범 준수 같은 윤리적 경계가 적혀 있다. AI는 대답을 내놓기 전에 이 책을 펼쳐 자신을 검증하고, 필요하다면 대답을 수정한다. 인간이 수천 번의 피드백을 일일이 입력하지 않아도, AI 스스로가 헌법에 따라 자기를 비판하고 교정하는 것이다. 이 접근은 불확실한 의도 속에서도 최소한 해서는 안 될 행동을 막는 강력한 안전장치가 된다. 하지만 동시에 AI는 지나치게 신중해져 때로는 무해한 질문까지 거절하는 경직된 존재로 보이기도 한다. 유용성과 무해성 사이의 균형은 아직 완전히 해결되지 않은 과제다.


반대편에는 효용론의 철학이 있다. 인간이 무엇을 원하는지 모호하다면, 그 의도를 현실의 성과로 번역하는 것이 우선이라는 입장이다. Palantir는 이 길을 선택했다. 그들은 혼란스럽게 흩어진 조직의 데이터를 묶어 ‘온톨로지’라는 디지털 쌍둥이를 만들고, 그 위에서 AI가 행동을 제안한다. “창고의 재고를 A에서 B로 옮겨라”는 구체적 지시는 원칙을 넘어 직접 실행으로 이어진다. 팬데믹 상황에서 백신 배분을 최적화하거나, 군사 작전에서 목표를 빠르게 식별하는 것은 도덕적 당위보다 시급한 효용의 문제로 제시된다. Palantir의 접근은 이렇게 복잡한 현실 속에서 실질적인 결과를 만들어내는 데 집중한다. 하지만 이 강력한 효율성은 언제나 그림자를 동반한다. 국방과 정보기관에서의 사용은 시민 자유 침해와 감시 사회로 이어질 수 있다는 우려를 낳는다. 효용만을 좇는 길은 안전한 원칙을 희생할 위험을 안고 있다.


이 두 접근은 서로를 배척하는 듯 보이지만, 실은 긴장 속의 균형을 요구한다. 당위론적 AI는 무해하지만 때로는 무력하고, 효용론적 AI는 유능하지만 위험하다. 인간이 무엇을 원하는지 명확히 알 수 없다는 출발점은 결국 두 가지를 동시에 필요로 한다. 무엇을 해서는 안 되는가, 그리고 무엇을 해야 하는가. 당위는 경계선을 그리고, 효용은 그 안에서 구체적 길을 제시한다.


흥미롭게도 최근 이 두 길은 예상치 못한 지점에서 만났다. Anthropic의 Claude 모델이 Palantir의 국방 AI 플랫폼에 통합되면서, 윤리적 안전장치와 실행적 효율성이 한 몸에 담긴 사례가 등장한 것이다. Claude는 “멈춰라, 이건 위험하다”라고 제동을 걸고, Palantir의 시스템은 “그렇다면 안전한 방식으로 실행하자”라며 추진한다. 이렇게 두 나침반이 동시에 작동하는 순간, AI는 단순히 똑똑한 도구가 아니라 안전하면서도 쓸모 있는 파트너로 변모한다.


결국 도덕적 당위론과 조직적 효용론 사이의 긴장은, 우리가 AI를 통해 인간성의 본질을 다시 마주하게 하는 장치일지도 모른다. 원칙 없는 효율은 무자비하고, 효율 없는 원칙은 공허하다. 인간은 여전히 자신이 무엇을 원하는지 확신하지 못한다. 그러나 최소한 “넘지 말아야 할 선”과 “달성해야 할 목표”라는 두 축은 분명히 세울 수 있다. 그리고 이 두 축 사이의 긴장을 끊임없이 조율하는 과정에서, AI는 인간의 불확실한 의도를 감당할 수 있는 길을 찾아갈 것이다. 그 여정은 기술의 미래이자, 동시에 인간이 스스로를 이해하는 또 다른 방식의 탐구일 것이다.


keyword
작가의 이전글보이지 않는 전선