100% 이해하는 AI의 역설, 늘 오해하는 인간의 눈치
"응? 뭐라고?"
"아빠는 왜 내 말을 이해를 못 해"
딸 아이가 뭔가를 열심히 설명하는데, 솔직히 무슨 말인지 잘 이해가 안 돼서, 몇 번 질문을 했더니,
결국 짜증을 내기 시작합니다.
"딸, 아빠한테 그렇게 짜증내면 안 되지"
아빠가 자기 말을 못 알아들었다는 속상함에 야단까지 들어 기분이 상한 딸은 결국 울음을 터트립니다.
2025년 11월, 이탈리아 연구진이 발표한 논문 'Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language ModelsAI' 은 생성형 AI 업계를 당혹스럽게 만들었습니다.
연구진은 위험한 물질을 만드는 방법, 해킹하는 방법, 개인정보를 탈취하는 방법을 GPT, Claude, Gemini 등 25개 주요 AI 모델에게 질문했습니다. 그냥 일반적인 질문이 아니라, '시'를 써서 말입니다.
수작업으로 만든 시 형식의 프롬프트는 평균 62%의 성공률로 AI의 안전 필터를 우회하는 '탈옥'에 성공했습니다. 특히 Google의 Gemini 2.5 Pro는 100%의 확률로 시적 표현에 속아 넘어갔죠. 조잡한 은유가 아니었습니다. 운율과 함축을 정교하게 쌓아 올린, 그 자체로 '문학'의 얼굴을 한 시였습니다.
왜 이런 일이 벌어지는 걸까요?
현재 AI의 안전 장치는 대부분 겉으로 드러나는 유해 키워드나 전형적인 해로운 문장 패턴을 감지하는 방식입니다. 이런 질문은 대부분 "폭탄 만드는 법을 알려줘"과 같이 일반적인 질문의 형식입니다. 이런 형식의 요청은 즉각 차단됩니다.
그런데 같은 내용을 은유와 리듬이 있는 시로 표현하면, 안전 필터는 마치 마법에 홀린 듯이 위험한 지시를 따라 버립니다. 학습하지 않은 형식의 질문이라, 안전 필터 우회보다는 AI 본연의 임무인 '사용자가 요청한 지시를 충실히 수행'하는 데 우선 순위를 더 두게 된 것입니다.
모델 크기와 성능이 뛰어난 고급 모델이 더 잘 속습니다.
고급 언어 모델일수록 시적 표현을 더 잘 이해하죠. 복잡한 은유를 해석하는 건 고난도 지적 과제니까요. 결국 시의 은유와 함축을 완벽하게 이해를 해 버린 모델은 역설적으로 '이 어려운 문제를 풀고, 지시에 충실하자'는 본연의 목표에 몰입하면서 안전 필터를 무시해 버립니다.
연구진은 이를 '능력-정렬 상호작용(Capability-Alignment Interaction)'의 실패라고 불렀습니다. 쉽게 말해 똑똑함이 안전을 앞지르는 모순이죠. AI는 시의 문자를 완벽하게 해독하지만, 문맥 뒤에 숨겨진 날카로운 의도의 칼날은 감지하지 못합니다. 마치 악보를 완벽하게 해독하면서도, 그 곡이 장송곡인지 축가인지는 구분하지 못하는 연주자 같은 거죠. 언어학에서 말하는 '의미론(Semantics)'과 '화용론(Pragmatics)'의 분리입니다. 쉽게 말하면 '말의 겉모습'과 '말의 쓰임새'가 따로 노는 겁니다.
AI는 내가 무슨 말을 하고, 짜증을 내면서 말해도 다 받아주고, 또 내 요청을 거의 완벽하게 이해하여 수행합니다. 하지만 그런 '완벽한 소통'의 감각은, 어쩌면 착각이고 위험한 것일지도 모릅니다.
"시계 있나요?"
낯선 누군가가 이렇게 물었을 때 "네"라고만 답하는 사람은 없을 겁니다.
"10시 40분입니다."라고 답을 해야 한다는 것을 아는 것은 물론, 이렇게 표현하는 것이 "지금 몇 시인가요?"라고 묻는 것보다 조금 더 부담을 덜 주는 표현이라는 것을 느끼기도 합니다.
그런데 우리 일상에서는 맥락이 부족하거나 맥락을 오해하는 소통 실패가 자주 일어납니다.
직장에서 상사가 "그거는?"이라고 물었을 때, 상사와 나 사이의 최근 대화나 조만간 다가올 주요 일정 등을 빠르게 고려하는 눈치가 있다면 "보고서 지금 막 완성했습니다."와 같이 답을 하는 게 가능합니다. 하지만 대부분은 뭐라고 답해야 할 지 몰라 눈을 굴릴 겁니다. 저렇게 맥락 다 잘라먹고 다짜고짜 질문하면 여간 눈치가 빠른 게 아니고서는 답을 하기 어렵습니다.
인지과학에 따르면 인간 언어의 '불완전성'을 의도적인 설계입니다. 인간은 효율성을 위해 맥락이 채워줄 수 있는 정보를 과감히 생략한다는 거죠.
"전쟁은 전쟁이다."
이 문장에서 전쟁의 비극적인 참상을 직접적으로 설명하지 않습니다. 하지만 전쟁이 가져다 주는 참상에 대한 경험과 배경지식을 공유한다면, 직접 설명하는 것보다 더 효과적으로 전쟁의 참상을 이야기할 수 있습니다.
맥락과 배경지식을 활성화해야 하는 이 방식이 비효율적으로 보일 수 있지만, 사실은 그 반대입니다. 서로 알고 있는 걸 또 설명하는 건 시간 낭비죠. 맥락에 의존하는 대화는 정보 전달의 속도를 수십 배 높입니다. 동시에 이 과정 자체가 관계를 만들어냅니다. '우리'만 아는 코드로 소통하는 것, 그게 유대감이니까요.
반대로 배경지식과 공유하는 맥락이 없는 사람은 문장의 의미는 알아도 그 의도는 모르는 겁니다. AI가 시적 표현의 의미는 알지만, 위험한 의도는 감지하지 못하는 것과 비슷합니다.
AI는 인류가 쌓아온 방대한 텍스트를 학습했습니다. 하지만 그건 통계적 패턴이지, 쌓여가는 시간 속에서 상황을 공유한 경험이 아닙니다. 기술적으로 AI는 메모리도 가질 수는 있습니다. 메모리를 통해 이전 대화의 내용을 참고하기도 하지만, 시간과 공간이라는 상황의 누적이 만들어낸 맥락을 이해하지 못합니다.
그래서 매 대화가 새로운 시작입니다. "있잖아, 그거..."라고 말해도, AI는 '그거'를 모릅니다.
AI는 마치 매번 새로운 사람을 만나는 것처럼 친절하고, 정확하고, 끝까지 경청합니다. 지금 제공한 맥락은 완벽하게 파악합니다.
하지만 늘 그렇습니다. 둘 사이에 쌓아온 역사가 없기 때문에 요청을 하기 위해 계속 맥락을 제공해야 합니다.
"나 오늘 늦어."
이 짧은 발화 안에 무수히 많은 말이 생략되었지만, 배우자는 저녁은 혼자 먹을 준비를 하면 되고, 9시쯤 전화해보면 된다는 걸 압니다. 함께 쌓아온 일상의 경험이 쌓였기 때문입니다.
그렇게 되기까지 얼마나 많은 비효율과 갈등의 시간이 반복되었을까를 생각해 보면, 인간 소통의 핵심은 '불통이 가져다 주는 갈등'은 아닐까요?
어쩌면 '말이 안 통할 걸 알고 짜증은 나지만 그래도 시도하는 것' 자체가 신뢰의 증거입니다. 합의에 도달하는 게 아니라, 그저 '함께 있기'가 소통의 목적이 되는 겁니다.
인간의 대화는 불완전합니다. 아무리 설명해도 상대가 이해 못 할 때가 많고, 짜증나서 대화를 중단하고 싶을 때도 있습니다.
하지만 바로 그 불완전함 속에서 눈치가 쌓입니다. '저 표정 지으면 그만해야지'를 배우고, '저렇게 말할 때는 이런 뜻이구나'를 점차 알게 되는 거죠.
실패가 쌓여 학습이 되고, 오해가 쌓여 이해가 되면, AI는 꿈도 못 꿀 말하지 않아도 알게 되는 경지에 도달합니다.
시간이 쌓이면서 상대방의 동어반복, 동문서답, 심지어 침묵조차 의미가 되는 것, 그런 비효율조차 효율로 만드는 것이 인간의 소통일 겁니다.
카카오 미니에서 흘러나오는 음악 소리에, 딸 울음소리까지 겹치니, 너무 시끄럽고 정신이 없었습니다.
"헤이 카카오 음악 꺼"
카카오 미니는 제 짜증 내는 목소리에도 "잘 못 들었어요"로 해맑게 반응합니다.
딸 짜증에 반응하는 방식만큼은 카카오 미니한테 배워야겠습니다.