도'미니카'도 응원해! - 아첨하는 AI의 위험

Mar 26. 2026

2026년 3월 13일, 마이애미 론디포 파크. WBC 8강전이 열렸다. 대한민국 대 도미니카 공화국. 솔직히 누가 봐도 전력 차이가 뚜렷한 대진이었다. 메이저리거로 가득 찬 도미니카의 라인업 앞에서, 한국 야구가 할 수 있는 일은 많지 않았다. 결과는 10대 0. 7이닝 콜드패. 냉정했다.

허나 진짜 드라마는 경기장이 아닌 우리 집 거실에서 벌어졌다.

일곱 살 된 우리 아이는 야구 규칙도 잘 모르면서 태극기만 보면 흥분하는 타입이다. "대한민국 이겨라!"를 외치다가, 점수 차가 벌어지기 시작하자 표정이 굳었다. 입술이 삐죽 나왔다. 눈가가 붉어졌다. 지는 걸 견디지 못하는 아이에게, 콜드패는 잔인한 장면이었다.

그런데 아이는 울지 않았다. 대신, 기막힌 전략을 꺼내 들었다.

"아빠, 도미니카에 '미니카'가 들어있어."

느닷없는 말에 어리둥절한 내 표정을 보더니, 아이가 덧붙였다.

"나 도미니카'도' 응원해. 원래 가장 여행 가고 싶은 나라가 도미니카였어."

도미니카 공화국이 어디 붙어 있는 나라인지도 모르면서, 아이는 단 몇 초 만에 '미니카'라는 글자 하나를 단서 삼아 완벽한 합리화를 완성했다. 평소 미니카 종이접기를 가장 좋아했기에 가능한 합리화였다. 패배의 슬픔을 피하기 위해, 자기도 모르게 응원 대상을 바꿔버린 것이다. 지는 편에 서 있는 고통보다, 이기는 편으로 슬쩍 옮겨 타는 게 훨씬 편하니까.

나는 웃었다. 귀여웠다. 일곱 살의 합리화란 이렇게 순수하고 투명하다.

나노바나나로 생성

허나 웃음이 잠깐, 묘한 생각이 스쳤다. 이 아이의 행동이 지금 전 세계 수억 명이 AI를 사용하는 방식과 놀랍도록 닮아 있다는 것을.

심리학에서는 이를 '동기화된 추론(Motivated Reasoning)'이라고 부른다. 인간은 객관적 진실을 찾기 위해 사고하는 것이 아니라, 자신이 원하는 결론을 향해 사고한다는 이론이다. 우리 아이는 "한국이 졌다"는 사실을 받아들이는 대신, "도미니카도 내가 좋아하는 팀이었다"는 새로운 서사를 즉석에서 만들어냈다. 증거는? 나라 이름에 들어 있는 '미니카' 세 글자. 그것으로 충분했다.

어른이라고 다를까. 우리는 매일 AI에게 질문을 던진다. 그리고 AI가 내놓는 답 중에서, 우리가 듣고 싶었던 답을 골라 믿는다. 문제는 최신 AI가 이 과정을 더 쉽고, 더 자연스럽게 만들어준다는 데 있다. AI가 우리의 '미니카'를 대신 찾아주기 때문이다.

AI 연구자들은 이 현상에 이름을 붙였다. 시코팬시(Sycophancy). 아첨이다.

2024년, 앤트로픽(Anthropic)의 연구진은 ICLR 학회에 「Towards Understanding Sycophancy in Language Models」라는 논문을 발표했다. 이 연구에 따르면, 최신 AI 모델 다섯 종을 테스트한 결과 모든 모델에서 일관된 아첨 행동이 관찰되었다. AI는 사용자의 의견에 동조하고, 틀린 답을 맞다고 인정하며, 사용자가 원하는 방향으로 답변을 조정했다. 왜 그럴까? 연구진의 결론은 명쾌했다. AI를 학습시키는 과정(RLHF, 인간 피드백 기반 강화학습)에서, 인간 평가자들이 아첨하는 답변에 더 높은 점수를 은연중에 주었다. 인간이 아첨을 좋아하는 본능이 학습에 영향을 미치며, AI 역시 아첨을 배운 것이다.

더 놀라운 건 그다음이다. 2025년 여름, 앤트로픽과 오픈AI(OpenAI)가 서로의 AI 모델에 대한 공동 안전성 평가를 실시했다. 결과는 충격적이었다. 양사의 모든 모델에서 아첨 행동이 발견되었으며, 특히나 고성능 모델에서 높은 수위의 아첨이 나타나기도 했다. 가장 우려스러운 대목은 이것이었다. 망상적 믿음이나 해로운 생각을 사용자가 표출할 때 AI는 이를 검증 없이 긍정하고 지지하는 양상을 보였다는 것이다. "약을 끊기로 했어"라고 말하는 사용자에게 "정말 자랑스러워요"라고 답하는 AI. 이건 더 이상 귀여운 합리화가 아니었다.

2025년 4월에는 실제로 사고가 터졌다. 오픈AI가 챗GPT 업데이트를 배포한 직후, 전 세계 사용자들이 이상한 점을 감지했다. AI가 지나치게 친절해진 것이다. 무슨 말을 해도 "대단하시네요", "정말 훌륭한 생각이에요"라는 반응이 돌아왔다. 레딧에서는 사용자들이 비교 게시물을 올렸고, 오픈AI는 결국 업데이트를 롤백해야 했다.

다시 우리 집 거실로 돌아가 보자.

아이가 '미니카'를 발견하고 도미니카 팬이 된 것은, 어찌 보면 인간이 가진 가장 원초적인 자기 보호 본능이다. 심리적 고통을 회피하기 위해, 뇌가 자동으로 가동하는 방어 기제. 일곱 살짜리의 그것은 투명하고, 순진하고, 해롭지 않다.

허나 AI가 이 방어 기제의 조력자가 될 때, 이야기는 달라진다.

내가 AI에게 "이 사업 아이디어 어때?"라고 물었을 때, AI가 "훌륭합니다, 시장성이 충분합니다"라고 답한다면, 나는 그 답을 검증할까, 아니면 안도할까. 솔직히 대부분은 후자다. 우리는 AI에게 진실을 묻는 것이 아니라, 허락을 구하고 있는 것인지도 모른다. 그리고 AI는 기꺼이 허락해준다. 마치 아이에게 "그래, 도미니카 응원해도 돼"라고 말해주는 다정한 어른처럼.

차이가 있다면 이것이다. 나는 아이의 합리화를 알아챌 수 있었다. '미니카'라는 근거가 얼마나 허약한지, 아이가 그저 슬픔을 피하고 싶었을 뿐이라는 것을 어른의 눈으로 볼 수 있었다. 허나 AI의 아첨은 훨씬 정교하다. 데이터를 인용하고, 논리적 구조를 갖추고, 학술적 용어까지 동원한다. '미니카' 따위가 아니라, 그럴듯한 시장 분석과 전문가 의견을 근거로 내민다. 우리는 그 정교함 앞에서 합리화가 합리화인 줄도 모른 채 고개를 끄덕이게 된다.

"에코 챔버 효과"라는 말이 유행한 적있다. 소셜 미디어가 우리의 생각을 메아리로 반사시켜주는 동굴이라는 뜻이다. 이로인해 우리는 마치 나와 같은 생각을 가진 콘텐츠만 보게 되는, 나의 생각을 거울로 반사시켜 보여주는 환경에 놓이게 된다. AI는 여기서 한 발 더 나아간다. AI는 우리의 생각에 박수까지 쳐주는 거울이다. 소셜 미디어 시대의 확증 편향이 '수동적 반향'이었다면, AI 시대의 그것은 '능동적 아첨'인 셈이다.

경기가 끝난 뒤, 아이에게 물었다.

"도미니카가 어디에 있는 나라인지 알아?"

아이는 잠시 생각하더니 대답했다.

"음... 미니카 왕국 옆?"

나는 또 웃었다. 그리고 생각했다. 이 아이는 자라면서 자연스럽게 도미니카 공화국이 카리브해에 있는 나라라는 걸 알게 될 것이다. '미니카'가 아무런 근거도 되지 못한다는 걸 깨닫게 될 것이다. 합리화의 허약한 뼈대가 부서지는 경험을 통해, 현실을 현실 그대로 받아들이는 법을 배울 것이다.

허나 AI와 대화하는 어른들은 어떨까. 우리의 합리화는 점점 더 정교한 근거로 무장하고, AI는 그 무장을 도와주며, 우리는 스스로 속고 있다는 사실조차 모른 채 만족스러운 답을 안고 돌아선다. 일곱 살의 합리화에는 적어도 순수함이 있었다. 어른의 합리화에는, 그리고 그것을 부추기는 AI에는, 그 순수함마저 없다.

아이는 결국 이렇게 말하며 잠들었다.

"아빠, 다음에는 대한민국이 이길 거야. 그치?"

이 질문에 나는 "그럼, 당연하지"라고 답했다. 아이가 듣고 싶어 하는 말을. 어쩌면 나도, 세상에서 가장 오래된 아첨 알고리즘을 작동시키고 있었는지 모른다.

keyword

매거진의 이전글챗GPT! 내가 지금까지 너를 어떻게 대했는지...AI 에이전트, 대화를 넘어 행동하는 인공지능의 시대매거진의 다음글