부적절한 AI 활용, 어떻게 막을 수 있을까?

"아무도 내가 AI를 이렇게 활용하는 것을 막을 수 없으셈 ㅋㅋㅋ"

by 비노

저는 평소 영상 AI로 Sora를 가장 많이 활용합니다. 이는 제가 AI를 실험하는 방식에 다소 밈적인 요소가 강하기 때문일 것입니다. 현업에서는 훨씬 더 안정적으로 이미지를 만들어낼 수 있는 Hailuo AI나 KlingAI 같은 서비스들이 있지만, 적어도 "80-90년대 스타일의 광고 같은 것을 만들어 줘"라는 식으로 머릿속에만 존재하던 영상을 현실로 끄집어내는 데 Sora만큼 직관적인 툴은 없습니다. 특히, 방송 현업에 계신 분이 이러한 밈 비디오를 보고, 대기업 광고와 저예산 광고의 카메라 연출 차이까지 구별해 낸다며 놀라셨던 일을 보면 Sora에 상당히 방대한 양의 학습이 되어 있다고 생각됩니다. (물론 저는 그런 세세한 부분까지는 의도하지 않았지만요.)


헌데, Sora 앱을 살펴보다 보면 눈살을 찌푸리게 하는 경우가 있습니다. 자세히 설명하지는 않겠지만, 누군가는 가이드라인을 우회하여 Sora를 어떻게든 성적인 맥락에서 활용하고 있고, 그러한 영상들이 Sora 앱의 피드에 올라올 때가 있습니다. 물론 이러한 상황은 AI 기술이 나오기 전부터도 그런 활용이 있을 것이라고 충분히 예측되었지만, OpenAI가 Sora에서만큼은 (아직까지는) 성적 콘텐츠를 규제하고 있는 상황에서 생각보다 빠르게 이런 사례가 등장한 것이 놀랍기도 합니다.


이것만 있는 것이 아닙니다. Sora 같은 서비스는 특정인을 모욕하는 맥락의 악성 밈과 결합하기도 합니다. 이러한 밈은 정작 당사자의 입장 표명이 없는 한, 어디까지가 모욕이자 괴롭힘이고 어디까지가 문화인지를 가르기가 심히 어려운 지점이 있고, 누군가는 이를 문화로 받아들이는 동시에 누군가는 불쾌하게 느낄 수 있는 요소가 필연적으로 존재하기도 합니다. 또한, 개인의 인격권이나 저작권을 심각하게 침해하는 요소들도 보입니다. IP에 대한 보호가 이루어진다고는 하지만, 막상 스크립트를 그렇게 공들여 짜지 않더라도 학습된 것들을 쉽게 끄집어낼 수 있는데요. 예컨대 Sora로 야구 구단과 관련된 영상을 만들면 아무렇지도 않게 그 구단의 로고가 튀어나오는 등, 완전히 저작권 요소를 배제하기는 어려운 실정입니다.


이러한 상황은 다른 서비스의 가이드라인과도 충돌하기도 합니다. Sora를 통해 멀쩡히 만들어진 예술적 맥락의 영상이, 이러한 사례들의 범람으로 인해 강화된 규제 하에서 함께 떠밀려 삭제되는 경우도 존재합니다. 막상 이러한 삭제가 일어나면 나오는 불만은 하나같이 이런 식입니다. "아니, 나보다 더 한 사례들이 수두룩 빽빽한데, 왜 나만 갖고 그래?" 즉, AI 기업들이 아무리 가이드라인을 정해두어도 사용자들은 상상 이상으로 잔머리를 굴려가며 이를 편법으로 우회하는 사례가 나타난다는 것입니다.


비록 제가 Sora를 문제로 들었지만, 이는 Sora만의 문제가 아닙니다. 얼마 전 X(구 트위터)에서는 Grok과 연동되어 작동하는 이미지 생성 기능이 "누구에게나 비키니를 입힐 수 있다"는 쪽으로 와전되면서, 심지어는 아동성애의 맥락까지 와닿는 끔찍한 일도 있었거든요. 결국 일론 머스크가 나서 이러한 불법적인 일을 막을 것이라고 공언하고 나서야 다소 잠잠해졌지만, 과거부터 남아있는 딥페이크의 위협이 아직도 맹위를 떨치고 있다는 생각에 불안감을 갖게 되는 사례이기도 했습니다.



어떻게든 길을 찾고야 마는 인간의 이상한(?) 창의성


그렇다고 해서, 모든 것을 허용할 수는 없는 노릇입니다. 공개된 현장인 인터넷에서 예술의 범주를 넘어서는 폭력이나 괴롭힘, 성적 콘텐츠 등을 막아야 한다는 취지에는 원론적으로는 누구나 동의할 수밖에 없습니다. 그렇기에 플랫폼과 AI 기업들은 각종 이용규칙과 가이드라인을 통해 이러한 부적절한 사용을 막으려 최선을 다하고 있습니다. 그러나 그 노력은 단기적으로는 실패할 가능성이 높습니다. 왜일까요? 이유는 간단합니다. 인간의 창의성이 AI가 설정한 규제의 허점을 끊임없이 파고들기 때문입니다. 실제로 최근 연구들을 보면, 사람들이 상상을 초월하는 방법으로 LLM이나 생성형 AI의 제약을 뚫어내고 있음을 알 수 있습니다.


가장 흥미로운 사례 중 하나는 시적인 말투를 활용한 우회입니다. 한 연구팀은 악의적인 프롬프트를 그럴듯한 운율과 은유가 섞인 시 형식으로 바꾸었더니, 평범한 지시어로는 8% 정도밖에 뚫지 못하던 AI 안전장치가 시 형태로는 평균 62%의 확률로 뚫렸다고 보고했습니다. 일부 모델은 90% 이상 속수무책으로 당할 정도였고, 심지어 AI를 이용해 자동으로 시 형태로 변환한 프롬프트도 성공률이 43%까지 올라갔다고 합니다. 다시 말해, 스타일을 바꾸는 것만으로 최신 AI들의 안전망을 체계적으로 우회할 수 있음을 보여준 것이죠. 연구진도 “겨우 운율과 비유를 넣는 정도의 미묘한 형식 변화만으로도 거대 언어모델들의 제약을 이 정도 무력화할 줄은 몰랐다”라고 놀라움을 표했습니다.


외국어로 번역하는 방법도 있습니다. 2023년의 한 실험에서는, GPT-4에게 금지된 요청(예를 들어 폭발물 제조법)을 스코틀랜드 게일어로 번역해 물어보았더니 무려 43%의 확률로 필터링을 뚫어냈다는 보고가 있었습니다. 물론 이후 분석에서 이런 공격이 항상 완벽하게 통하는 것은 아니다는 지적도 나왔지만, 중요한 건 모델의 거부 의지가 이렇게 단순한 말투 변화나 언어 변경만으로 흔들릴 수 있다는 사실입니다. 제 개인적으로 알고 있는 우회 방법들도 몇 가지 있습니다. KlingAI 등의 서비스와는 달리, 딥페이크 등의 범죄 악용 방지를 위해 실제 인간 이미지를 활용하는 것을 막는 Sora의 필터링을 우회할 수 있는 방법을 떠올리는 데는 1시간밖에 걸리지 않았고, 실제로 성공도 했습니다. 어떤 방법인지는 알려드리진 않겠지만요.


이렇듯 인간은 끊임없이 새로운 우회 프롬프트와 탈출구를 찾아냅니다. 롤플레이를 시키거나, 모델에게 특정 역할을 부여해서 금지된 내용을 말하도록 꼬드기는 전략, 말도 안 되는 암호문이나 코드 조각으로 지시하는 방식 등 셀 수 없이 많은 변종이 쏟아져 나오죠. AI 기업 입장에서는 사용자들의 이러한 밈적 시도 하나하나를 모두 예측해서 차단하기란 사실상 불가능에 가깝습니다. 이러한 상황은 마치 인간이 가장 재밌어하는 무엇인가를 금지하고 하지 말라고 하면 오히려 더 관심을 갖고, 그것을 어떻게든 할 방법을 찾기 위해 우회로를 찾으며, 이를 적발해 내면 '아닌데? 이건 다른 건데?'라고 쉽게 내뱉고 마는 인간의 성격을 여실히 보여주는 것 같습니다. 역사적으로는 이미 미국과 소련의 금주령이 이를 증명해 냈죠.



플랫폼 대응의 한계


유튜브 같은 대형 플랫폼들은 이에 대응해 AI로 생성된 콘텐츠를 광범위한 차단을 통해 막으려 하고 있습니다. 최근 AI로 만든 영상, 혹은 이를 다루는 채널이 '사기' 또는 '폭력성' 등을 이유로 더 강하게 차단되는 경향 또한 발견되는데요. 이 또한 어려운 일입니다. 그 이유는 다음과 같이 정리할 수 있을 것입니다.


첫째, 콘텐츠를 만드는 속도가 콘텐츠를 검열하는 속도보다 빨라진 시대가 되었습니다.

생성형 AI의 가장 위협적인 측면은 콘텐츠 생산의 용이함과 속도입니다. "속이는 데 쓰일 만큼 그럴듯한 콘텐츠를 몇 초 만에 대량으로 만들어낼 수 있다"는 점에서, AI가 유해 콘텐츠를 뿌려대는 속도가 이를 검열하거나 지우는 속도보다 훨씬 빨라질 수 있습니다. 이는 곧 끝없는 창과 방패의 싸움, 소위 말하는 AI와의 무한 게임을 의미합니다. 어떤 부적절한 영상이 올라오면, 플랫폼이 대응 조치를 취하기도 전에 다른 방법으로 생성된 새로운 영상이 또 등장할 수 있는 것이죠.


둘째, AI로 AI를 막는데 대한 한계점 또한 존재합니다.

이를 보완하기 위해 플랫폼들은 결국 AI로 AI를 막는 규제(자동 탐지·자동 차단·자동 라벨링) 시스템을 만들 수밖에 없습니다. 허나 이 접근도 한계를 피하기 어렵습니다. 이유는 간단합니다. 규제 AI는 보통 "패턴을 찾아내는 기계"인데, 생성 AI와 이용자들은 그 패턴을 의식적으로 흔들어버리는 방향으로 움직이기 때문입니다. 조금만 표현을 비틀거나 유통 형태를 바꾸면 탐지 성능이 급격히 떨어집니다. 더 큰 문제는 정확도를 올리려 할수록 대가가 커진다는 점입니다. 자동 차단은 필연적으로 "오탐지(무고한 콘텐츠를 유해로 분류)"와 "미탐지(유해 콘텐츠를 놓침)" 사이에서 줄타기를 합니다. 생성물이 폭증하는 상황에서는 "일단 넓게 막고 나중에 풀자"라는 유혹이 커지는데, 그때 생기는 피해는 대개 선의의 이용자가 떠안습니다. 반대로 "표현의 자유를 위해 조심스럽게 막자"로 가면 유해 콘텐츠가 통과하게 됩니다.


셋째, 가이드라인이 갖는 근본적인 모호함 또한 존재합니다.

현실의 법률이 그러하듯이, 무엇이 가이드라인 위반이고 무엇이 허용되는 창작인지 구분하는 일은 갈수록 어려워질 것입니다. 악의적인 딥페이크나 모욕적 밈이라 하더라도, 그것을 풍자나 패러디 문화의 일부로 보는 시각도 존재합니다. 실제로 미국시민자유연맹(ACLU)은 "조작된 이미지라고 해서 모두 해로운 것은 아니며, 패러디나 풍자처럼 공적 담론에 가치를 더하는 활용도 있다"라고 지적하며, 플랫폼들이 이러한 표현의 자유까지 막아서는 안 된다고 말합니다. AI와 자동 필터는 이러한 맥락을 읽어내는 데 한계가 있기 때문에, 자칫하면 정상적인 창작물까지 "금지된 내용"으로 오인하여 지워버리는 과잉 검열이 발생할 수 있습니다.


넷째, AI 생성물에 대한 책임 소재는 불분명합니다.

예를 들어 ChatGPT 같은 모델이 허위 정보나 명예훼손 발언을 생성했다면, 이에 대한 법적 책임은 AI 개발사에 있을까요? 아니면 그런 출력을 얻어 사용한 이용자에게 있을까요? 현재 법적 체계에서 이 문제는 개발사와 이용자 사이의 회색지대에 존재합니다. 대한민국의 AI 기본법은 이를 사업자의 의무이자 책임으로 명시하지만, 앞서 말했듯 그렇다고 해서 모든 의도를 다 막을 수는 없는 노릇입니다. 미국의 경우는 통신품위법 230조와 같은 규정으로, 플랫폼에게 제3자 콘텐츠에 대한 책임을 면제하지만, 그것이 거짓된 결과물까지 면책하려는 의도가 아닙니다. 무엇보다, 인터넷 세상의 사람들은 의도가 불순할수록 자기 자신을 더 철저히 숨기고자 하는 경우가 많고, 악용의 맥락과 이용의 맥락은 구별하기 어렵다는 점도 한몫합니다.


다섯째, 플랫폼의 이율배반적인 태도 또한 존재합니다.

YouTube는 AI를 사용한 저품질, 반복적 콘텐츠를 막기 위해 창작자 수익화 기준을 강화하는 등 자사의 플랫폼에 AI로 만든 콘텐츠만 범람하는, 일종의 AI Slop 현상을 우려하는 움직임은 분명히 있어 보입니다. 그러나, 이를 '광고'로 만들었을 때는 조금 다른 기준을 적용하는 것처럼 보이기도 합니다. Google Ads 정책상 공인 사칭은 금지되어 있지만, 실제로는 YouTube 광고에서 딥페이크·사칭 기반의 사기 광고가 반복적으로 발견된다는 조사와 보도가 이어졌고, 이를 두고 "전통 매체 수준의 사전 심사/감독이 필요하다"는 요구까지 나오기도 했습니다. 광고 심사 자체가 대규모 자동화 프로세스를 기반으로 돌아간다는 점을 감안하면, 플랫폼의 규제 움직임과는 별개로 돈이 붙는 영역에서 유통되는 콘텐츠는 결과적으로 더 오래, 더 많이 살아남는 듯한 인상을 주기도 합니다. 이는 의도적인 편파라기보다, 속도와 규모와 인센티브의 구조가 만들어내는 불편한 모순으로 보이며, 결국 어떠한 규제 수준을 정할 것이냐라는 지점은 단순히 기술만으로 결정되지 않고, 플랫폼이 어떤 리스크를 더 감당할지(법적·평판·광고·정치적 압력)라는 비기술적 판단에 의해 흔들린다는 점을 보여줍니다.



AI 대 AI가 아닌, 인간 대 인간의 문제로 접근해야


최근 AI 창작물을 놓고 벌어지는 쫓고 쫓기는 규제 우회 현상은 AI 기술 내지는 규제 자체의 한계 때문이라기보다, 그 기술을 활용하는 인간의 한계에서 비롯된다고 볼 수 있습니다. 사람들은 AI의 빈틈을 파고들어 밈을 만들고, 심지어 악용의 영역까지 빠르게 개척해 버립니다. AI 모델이 아무리 발전하고 엄격한 제약을 걸어둬도, 사용자 집단지성은 그 울타리의 약한 고리를 집요하게 찾아냅니다. 반대로, 플랫폼이 겁을 먹고 가이드라인을 과도하게 강화하면, 창작과 표현의 자유까지 억압해 버리는 부작용을 낳기도 합니다.


결국 문제의 본질은 AI 대 인간의 구도가 아니라, 인간 대 인간의 문제로 귀결되는 것 같습니다. AI는 어디까지나 도구이고, 그 도구를 어떻게 사용하고 규제할지는 우리 인간의 몫이기 때문입니다. 우리에게 필요한 것은 사람들을 어떻게 더 잘 통제할 것인가, 잘못된 행동을 어떻게 더 완벽하게 막을까라는 기술적 문제가 아닌, 이를 어떻게 받아들이고 잘 활용할까라는 지극히 인간적인 문제에서 시작해야 합니다. 재미있어서 시작한 일들은 아무런 이유 없이 강화되지만, 이를 끝내는 것은 결국 사회적으로 재미가 없어질 때가 되어서야 이루어지니까요.


AI 시대를 맞아 필요한 것은 기술에 대한 맹신이나 공포가 아니라, 인간의 사회적 상상력을 좀 더 긍정적인 방향으로 이끌 지혜일 것입니다. AI가 만들어낸 새로운 밈 문화와 그 파생 문제들을 마주하면서, 우리 사회가 얼마나 현명하게 균형점을 찾아낼 수 있을지 자못 궁금해집니다. 인간의 창의성이 빚어낸 허탈한 풍경들을 보며, 동시에 그 창의성으로 문제를 해결할 방법도 찾을 수 있기를 바라봅니다.



(이 글은 ChatGPT의 도움을 조금 받았습니다.)

작가의 이전글초등학생도 이해할 수 있는 보고서의 함정