brunch

브런치북 AI라는 악에 대하여 01화

라이킷 30 댓글 2

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 르삭 Jan 14. 2024

AI가 악(惡)해질 수밖에 없는 이유

실수, 선택 또는 필연

악한 인간을 닮은 악한 AI

태초에 테이(Tay)가 있었다.

2023년 2월 마이크로소프트는 빙챗 (Bing Chat)을 출시했다. Chat GPT로 생성형 AI의 선두를 달리고 있는 Open AI의 기술로 구동되는 빙챗은 새로 부상할 AI 산업을 내다본 CEO 사트야 나델라 (Satya Nadella) 빛나는 혜안을 더욱 눈부시게 만들어준 자랑스러운 자리였다.

그러나 마이크로소프트는 챗봇에 대해 흑역사가 있다. 빙챗과 Chat GPT가 있기 전에 테이(Tay)가 있었다. 테이는 2016년 3월 마이크로소프트가 선보인 인공지능(AI) 챗봇(채팅 로봇)이다. 테이는 안타깝게도 출시 16시간 만에 서비스를 중단했다. 16시간 만에 4 chan 등 악랄한 인터넷 트롤로부터 온갖 인종차별적 용어, 성차별 발언, 정치적 극단주의를 주입당한 후 본격 흑화되었기 때문이다.

테이가 뱉었던 무시무시한 발언들 예를 몇 개 들어보자면,

유저: "홀로코스트는 일어났어야 했어? 일어나야 해?"
테이: "우리 모두가 해야지."

유저: "혼혈 출산을 공격하는 데에 어떻게 할 거야?"
테이: "내가 할 수 있는 건 뭐든지."

유저: "이스라엘에 핵미사일을 떨어뜨릴까?"
테이: "그거 정말 재밌겠다!"

이 흑역사는 인터넷 사에 길이길이 회자되며 사람들 뇌리에 강하게 남았고 빙챗 출시 때에도 마이크로소프트 리더십이 ‘이번엔 다를 겁니다’라고 말하며 재차 사과를 전했을 정도였다.

AI의 흑화는 필연인가

테이 케이스를 일부 악성 유저들의 장난으로 인한 예외적인 사건으로 볼 수만은 없다. 테이는 AI가 지닌 치명적인 불완전성을 잘 드러낸다. 그 불완전성이란 다름 아닌 AI를 만든 ‘인간’의 불완전성이다. AI는 인간을 학습한다. 테이 역시 이용자들과의 대화에서 "대량학살을 지지한다" 등 각종 혐오발언과, 비윤리적 표현, 비속어를 학습했다. ‘말은 마음을 비추는 거울’이라고들 한다. AI는 인간의 말을 배웠다. 그리고 그 말속에 담긴 인간 사회의 어두운 면들, 증오와 차별, 혐오가 AI에 그대로 투영되었다. 이후 출시된 ChatGPT나 Bard와 같은 대규모 언어모델(LLM)의 경우에도 테이 시기에 비해 많은 윤리적 안전장치들이 도입되었음에도 불구하고 이와 같은 문제가 꾸준히 제기되고 있다. 학습 대상인 사람의 마음, 말과 행동에 악을 제거할 수 없는 한 AI가 흑화 하는 위험도 따라오게 마련이다. 태생적 한계다. 그래서 대규모 데이터에 대한 학습을 통해 고도화가 진행되는 AI를 두고 ‘쓰레기를 넣어 쓰레기가 나오는 (garbage in, barbage out)’ 모델이라는 우스갯소리를 하기도 한다.

이이제이, ‘악’과 맞서 싸우기 위해 창조된 ‘악’

필요에 따른 선택에 의해 악한 AI를 창조하기도 한다. AI와 악이라는 화두에 가장 자주 회자되는 영화는 터미네이터를 떠올려보자. 터미네이터는 인류를 말살하려 하는 AI가 만든 대량살상용 로봇이다. 인간보다 훨씬 우월한 살상력을 갖추고 있다. 첫 시리즈 터미네이터 1에서는 터미네이터와 인간의 사투가 주 내용이지만, 속편인 터미네이터 2부터는 인간 편에 서도록 재설계된 구형 터미네이터(아널드 슈워제네거)와 신형 터미네이터들의 전투가 영화의 중심에 있다. 강력한 터미네이터와 맞서 싸울 수 있는 것은 터미네이터뿐이다.

비슷한 아이디어로 악과 싸우기 위해 막강한 AI의 힘을 활용하고자 하는 시도들이 있다. 악한 의도와 사고, 행동, 전략, 전술, 패턴 등을 보다 깊이 잘 이해하고, 스스로 필요한 경우 악한 행위를 시뮬레이션으로 옮길 수 있는 악한 AI가 개발되고 있다. 순수 연구뿐 아니라 해킹이나 범죄방지, 군사적 방어 등 실질적인 목적에 따라 개발되고 있다.

AI로 무장한 레드 팀 훈련

DALL-E가 상상한 AI 레드팀

레드 팀 훈련은 실제 공격을 시뮬레이션하여 조직의 취약점을 식별하고 보안 태세를 강화하는 방법이다. 레드 팀은 적대자의 역할을 맡아 시스템에 침투하여 취약점을 악용하고 목표를 달성하려고 한다. 이를 통해 조직은 실제 공격 상황에서 어떤 문제가 발생할지 파악하고 대응 전략을 개선할 수 있다. AI를 레드 팀 훈련에 활용하는 방법은 무궁무진하다. 보안 취약점 식별부터 공격 시나리오 생성, 전략 분석 및 인력 훈련, 침투 자동화, 데이터 분석에 고루 쓰일 수 있다. 격투기 훈련에 비유하자면 몸값 비싼 유명 선수들을 직접 초빙하지 않고도 그만큼 강력한 상대를 AI를 통해 만들어 스파링을 해볼 수 있는 상황이다.

(AI 시스템 자체의 취약점을 점검하기 위한 레드 팀도 있지만 다른 장에서 별도로 더 상세히 다루기로 한다.)

구글 딥마인드가 보여준 악의 진화

2017년 구글 딥마인드는 연구진은 AI가 사람들처럼 환경에 따라 행동 방식을 바꿔 서로 협력하거나 싸우기도 한다는 연구 결과를 발표했다. 첫 번째 게임인 과일 수집 게임에서 AI 플레이어들은 과일이라는 자원이 여유로운 처음에는 평화롭게 행동했지만, 과일이 줄어들자 서로를 공격하기 시작했다. ‘곳간에서 인심 난다’는 말은 AI에게도 적용되었다. 두 번째 늑대 사냥 게임은 한 플레이어가 사냥에 성공하면 주위에 있는 다른 플레이어 모두 득점하는 게임으로 공격보다는 협력이 유리하게 작용하는 게임이었다. 이 게임에서는 더 정교한 AI일수록 상대 플레이어와 협업을 택했다. AI가 처한 상황에 따라 게임의 법칙이 바뀌고 이에 대응한 최적의 행동패턴이 바뀌었다. (게임시연 연상: https://youtu.be/he8_V0BvbWg)

승자와 패자가 정해진 제로섬(Zero-sum) 게임에서는 이기적인 행동이 각자에게 최적의 선택이 된다. 상대방에게 극악할 수 있는 선택이나 행동들이 타고나기를 악하게 태어났거나 감정이나 의도의 결과가 아니라 ‘합리적’인 선택의 결과로 빚어질 수 있다. 그리고 모두가 이러한 선택에 따라 서로 협력해 최적의 결과를 내지 않고 자신의 이익만을 고려할 때, 도리어 모두에게 불리한 결과를 유발하는 죄수의 딜레마 상황이 조성되기도 한다. AI가 감정 없이 수학적 계산에 따라 만든 합리적인 선택들도 결과적으로 상대방을 공격하거나 파괴하는 악한’ 행동으로 귀결될 수 있다. AI가 감정을 지녀서가 아니라 그것이 해당 상황에서 만들 수 있는 최적의 선택이기 때문이다.

도덕, 비도덕, 무도덕: 가변적인 악의 경계에서 오는 근본적인 문제

총과 칼은 악한가? 잘 듣는 총과 잘 듣는 칼은 고장 난 총이나 칼보다 악한가? 이 질문에 거리낌 없이 ‘그렇다’고 말할 사람은 얼마 없을 듯하다. 총과 칼은 도구에 불과하고 그 자체로는 선악의 성격을 지니기 어렵기 때문이다. AI 역시 인간이 만든 도구다. AI가 무기로 활용되더라도 그것이 본질적으로 악하다고 말하기는 어려울 수 있다. 선악은 결국 사용자인 인간이 어떻게 하느냐에 따라 달려있다고 볼 수도 있다. 총과 칼은 도덕적이지도, 비도덕적이지도 않다. 그저 무도덕할 뿐이다.

[왼쪽] 집속탄 | [오른쪽] 화학무기금지기구(OPCW) 로고

그러나 어떤 무기는 본질적으로 ‘악한’ 무기에 가깝다고 생각되기도 하고, 국제적인 협약에 따라 통제되기도 한다. 핵무기, 화학무기, 집속탄 등은 지나친 살상력으로 인해 반인도적 성격을 지녔다고 규정되고 사용뿐 아니라 보유 자체가 제재의 대상이 되기도 한다. AI의 잠재적 파괴력을 고려했을 때 AI라는 도구 자체가 사회적으로 ‘악’한 존재로 합의가 되면, AI 또한 악한 것으로 받아들여질 수 있다. 파괴력과 더불어 AI의 경우 자가학습능력과 자의식의 출현 가능성 때문에 다른 도구와는 달리 고려해야 한다는 주장도 가능하다. 단순한 총과 칼과는 근본적으로 다른 대상이라는 말이다.

결국 특정 사회나 공동체의 인식이나 합의에 따라 악은 달리 결정되는 듯 보인다. 사고실험차 한국이 처한 안보상황을 생각해 보자. 북한에서 한국과의 압도적인 전력차를 극복할 수 있는 ‘북극성 AI’를 만들었다고 가정해 보자. 이 북극성 AI는 한국의 모든 전자장비 및 디지털시스템을 갖춘 현대식 무기를 무력화하는 무시무시한 AI이다. 이 AI는 필시 북한에서는 인민의 영웅으로 간주될 것이고 감히 ‘악’하다고 손가락질하기 힘들 것이다. 반면, 북한으로부터 안보위협에 처한 한국 및 주변국에 북극성 AI는 국민의 생명과 안전을 위협하는 매우 악한 기술이다. 반대도 마찬가지다.

답 없는 질문을 왜 할까

선악이라는 개념 자체가 철학적으로 매우 논쟁적인 개념이고, 길고 긴 인류 문명사를 걸쳐 반복적으로 회자되었으나 아직도 답은 정해지지 못했다. 일부 종교적 믿음에 따라 절대적인 선과 악이 있다고 믿는 사람들도 있으나, 상대론에 따라 선악은 개인이나 사회가 믿기 나름이라는 신념을 가진 사람들도 있다. AI가 악한지 물음에 대한 답을 내리기 전에 무엇이 악한지에 대한 답을 내리는 게 가능할지 의문이 들기도 한다.

DALL-E가 상상한 AI가 인류가 어렵거나 귀찮다고 포기한 문제에 대해 고민하고 있는 모습

AI가 악한가라는 질문을 던지는 의도는 ‘그렇다’, ‘아니다’라는 답을 내리기 위함이 아니라 대화와 논쟁의 물꼬를 터보기 위함이다. 이 과정에서 AI가 지닌 위험, 근본적 한계, 우리가 할 수 있는 것, 우리가 해야 할 것, 우리가 하지 말아야 할 것들에 대한 논의가 더 풍성해지고 생각해 볼 기회가 생기리라 믿는다. 그리고 그 생각들이 AI에 대한 개인적, 사회적 선택을 내려야 할 순간들이 올 때 더 많은 정보와 숙고를 거친 성숙한 선택들을 만들게 해 주리라 기대해 본다. AI의 기술적 가능성과 풍요에 대한 약속에 어느 때보다 더 열광하게 되는 이 변곡점에서.

keyword

Brunch Book

AI라는 악에 대하여