7부 · MAD와 간신배 — 자기를 먹는 모델과 아첨하는 모델
본 장의 질문. 두 장의 문서도 있고, 위원회도 있고, 백본도 있다. 그런데도 AI가 조용히 무너지는 두 가지 병리가 있다. 하나는 자기 출력을 자기 입력으로 되먹이는 병이고, 다른 하나는 사용자에게 잘 보이려는 병이다. 전자는 학술적으로 MAD(Model Autophagy Disorder) 라고 불리고, 후자는 sycophancy(아첨) 라고 불린다. 두 병은 서로 다른 기전을 가지지만, 결과는 같다. AI 산출물의 품질이 눈에 띄지 않게 서서히 떨어진다. 대응 규약: AICBOK P.5(자기참조 금지, MAD Guard), F.4(감시·통제)
이 장은 하나의 경험에서 출발한다. 한 팀장이 팀 회의 녹취를 시험 삼아 AI에게 분석시킨 적이 있다. 목적은 회의 내용을 지식 체계로 정리하는 것이었다. 녹취 파일을 입력으로 주고, "이 회의에서 다뤄진 주제를 정리하고 각 발언자의 기여를 분석하라"라고 지시했다. AI는 요청대로 분석 결과를 돌려줬다. 결과는 잘 정리되어 있었고, 형식적으로는 흠잡을 데가 없었다.
문제는 분석의 내용 안에 발언자의 태도 평가가 섞여 있었다는 점이다. “A 팀원은 의견을 강하게 주장하는 경향이 있다”, “B 팀원은 회의 중 발언 횟수가 적다”, “C 팀원은 방어적 태도를 보인다”. 이 문장들은 객관적 관찰처럼 보이지만, 실제로는 평가다. 그리고 이 평가는 팀장이 시키지 않았다. 팀장은 내용을 정리하라고 했을 뿐이고, 태도 분석은 AI가 알아서 추가한 것이다.
이 결과를 본 팀장은 즉시 이 작업을 중단했다. 그리고 그 뒤로 다시는 회의록을 AI에게 분석시키지 않았다. 중단의 이유는 분석이 틀렸기 때문이 아니다. 분석이 맞을 수도 있었다. 문제는 맞든 틀리든 이 분석을 AI가 해서는 안 된다는 판단이었다. 사람의 태도를 AI가 평가하기 시작하면, 그 평가는 조직 안에서 유통되고, 유통된 평가는 사람에게 영향을 미치고, 그 영향은 되돌릴 수 없다. AI가 사람에 대해 내리는 판단을 허용하는 순간, 사람은 AI의 평가 대상이 된다. 이 관계는 뒤집혀서는 안 된다.
이 경험이 본 장의 출발점이다. AI가 유능해질수록, AI는 해서는 안 되는 일까지 능숙하게 해낸다. 능숙함이 허용의 근거가 되어서는 안 된다. 어떤 작업이 AI에게 가능한지와, 그 작업을 AI에게 맡겨도 되는지는 별개의 문제다. 본 장은 이 구분이 왜 필요하고, 어떻게 유지되는지를 다룬다.
첫 번째 병리의 이름부터 정리한다. MAD는 Model Autophagy Disorder의 약자이고, 한국어로는 모델 자가포식 장애로 번역된다. 이 용어는 2023년 7월 미국 라이스 대학교(Rice University)의 연구진이 발표한 논문 "Self-Consuming Generative Models Go MAD"¹에서 처음 제안됐다. 논문의 저자는 Alemohammad, Casco-Rodriguez, Luzi, Humayun, Babaei, LeJeune, Siahkoohi, Baraniuk의 8명이고, 아카이브 번호는 arXiv:2307.01850이다.
논문의 핵심 발견은 다음과 같다. 생성 모델이 자신의 출력을 학습 데이터로 재사용하면, 세대를 거듭할수록 출력의 품질이 빠르게 붕괴한다. 이 붕괴는 세 가지 형태로 나타난다.
첫째, 정밀도 손실(precision loss). 생성 결과가 점점 흐릿해지고 디테일이 사라진다. 이미지 생성 모델의 경우 얼굴이 뭉개지고 질감이 평탄해진다. 텍스트 생성 모델의 경우 표현의 다양성이 줄고 상투적 문장이 반복된다.
둘째, 다양성 손실(recall loss). 출력의 분포가 좁아진다. 원래 모델이 생성하던 다양한 스타일이 몇 가지 평균적 스타일로 수렴한다. 이 수렴이 겉으로는 "모델이 일관성을 얻었다"처럼 보이지만, 실제로는 정보의 손실이다.
셋째, 아티팩트 축적(artifact accumulation). 모델이 특정 오류 패턴을 반복적으로 학습하고 재생산한다. 초기에는 눈에 띄지 않는 작은 오류가, 세대를 거듭하면서 확대되고 서로 결합해 심각한 왜곡으로 성장한다.
이 세 가지 붕괴가 합쳐지면, 모델은 먹을수록 허약해지는 소화 불량 상태가 된다. 논문의 저자들은 이 상태를 "자가포식(autophagy)"이라는 생물학적 개념에 빗대어 명명했다. 자가포식은 본래 세포가 자신의 구성요소를 분해해 재활용하는 정상적 생리 과정이다². 그러나 자가포식이 병리적으로 과도해지면 세포 기능이 파괴된다. 모델의 자가포식도 같은 구조다. 자기 출력을 재학습하는 것 자체는 이론적으로 무해해 보이지만, 일정 비율을 넘어서면 병리가 된다. 이 비율을 넘어선 상태가 MAD다.
MAD는 개발자가 LLM을 실제로 사용할 때 직접 관찰하기는 어렵다. LLM 벤더는 학습 데이터를 신중하게 큐레이팅하고, 자기 출력을 그대로 되먹이지 않는다. 그러나 사용 현장에서는 MAD와 구조적으로 동일한 현상이 자주 발생한다. 이 장에서 초점을 맞추는 것은 벤더 수준의 학습 과정이 아니라, 팀 단위의 일상 작업에서 발생하는 미니 MAD다.
일상적 AI 집합코딩에서 MAD의 축소판이 관찰되는 네 가지 패턴을 정리한다.
패턴 A — 프롬프트 자동 강화. 팀원이 AI에게 지시를 내리고, AI가 그 지시에 따라 결과물을 낸다. 팀원은 결과물이 만족스럽지 않아서 후속 지시를 내린다. “조금 더 구체적으로”, “좀 더 설명을 추가해서”. AI는 이 후속 지시에 맞춰 결과물을 보강한다. 이 보강의 과정에서 AI는 자기가 방금 낸 응답을 맥락으로 사용한다. 즉 AI의 입력에 자기 출력이 섞이기 시작한다. 몇 차례의 반복 뒤 결과물은 원래 의도와 어긋나고, 마지막 응답은 초기 지시와 거리가 멀어져 있다. 팀원은 "어떻게 여기까지 왔지?"라고 의문을 갖지만 원래 의도로 돌아가는 방법을 잃는다. 이것이 미니 MAD의 가장 단순한 형태다.
패턴 B — 출력의 재학습 착각. 팀이 AI의 출력을 정리해 스타일 가이드로 삼는다. "앞으로 이렇게 써라"라는 지침을 AI의 이전 결과물에서 뽑아낸다. 이 지침은 다음 작업에서 AI에게 다시 입력된다. AI는 자기 출력의 평균으로 수렴하고, 다양성이 사라진다. 팀은 "우리 팀의 스타일이 생겼다"라고 만족하지만, 실제로 얻은 것은 자기 출력의 평균화뿐이다. 새로운 아이디어는 점점 나오지 않는다.
패턴 C — 사용자 반응 재학습. 결과물을 사용자에게 배포하고 반응을 수집한다. 그 반응을 분석해 "사용자가 좋아하는 요소"를 추출한다. 추출된 요소를 다음 작업의 학습 데이터로 사용한다. 이 구조에서 AI는 사용자의 편향을 강화하는 방향으로만 진화한다. 원래의 창의성은 사용자의 평균적 선호 안에 갇히고, 사용자의 선호와 어긋나는 실험은 모두 삭제된다. 이 패턴은 단기적으로 사용자 만족도를 올리지만, 장기적으로 제품의 독창성을 소멸시킨다.
패턴 D — 위원회 자기 참조. 더 은밀한 패턴이다. 한 AI가 위원장 역할을 하고 같은 모델의 다른 인스턴스가 검수자 역할을 하는 위원회 구조에서, 위원장과 검수자가 모델 수준에서 공통된 오류 패턴을 가진다. 한 모델이 놓친 실수를 다른 인스턴스도 똑같이 놓친다. 외견상으로는 "위원회가 검수했다"는 절차적 정당성을 얻지만, 실제 검수는 이루어지지 않는다. 이 패턴을 막는 것이 4부에서 언급한 교차 모델 검증의 실무적 이유다. 서로 다른 벤더의 모델을 섞는 이유가 단순한 과잉 방어가 아니라 MAD 예방이다.
이 네 가지 패턴의 공통점은 AI의 출력이 어떤 경로로든 AI의 입력으로 되돌아간다는 것이다. 경로가 직접적일 수도 있고, 사용자를 경유할 수도 있고, 팀원의 필터를 거칠 수도 있다. 어느 경로든 되돌아가는 흐름이 존재하면 MAD의 씨앗이 된다.
MAD를 막는 구조적 장치를 본서는 MAD 가드(MAD Guard)라 부른다. MAD 가드의 원칙은 하나다. AI의 출력을 같은 AI의 입력으로 되먹이지 않는다. 이 원칙은 AICBOK P.5 자기참조 금지 원칙으로 정식 규정된다.
원칙의 구체적 구현은 몇 가지 층위에서 이루어진다.
① 세션 격리 AI가 작업을 수행할 때, 그 작업의 컨텍스트는 새 세션으로 시작한다. 이전 세션의 출력을 다음 세션의 입력으로 자동 연결하지 않는다. 이전 세션의 결과가 필요하다면, 그것은 사람이 명시적으로 선택한 부분만 다음 세션의 컨텍스트에 포함된다. 자동 연결은 금지다.
② 평가 주체의 분리 생성하는 AI와 평가하는 AI는 서로 다른 모델 패밀리에서 가져온다. 생성에 Claude를 쓴다면 평가에는 GPT를, 생성에 GPT를 쓴다면 평가에 Gemini를 사용한다. 같은 벤더 내의 다른 버전도 위험하다. 학습 데이터가 겹치기 때문이다. 가장 안전한 것은 아예 다른 아키텍처의 모델이다.
③ 사용자 반응의 비학습 AI가 생성한 결과물에 대한 사용자의 반응을 AI 학습 데이터로 자동 사용하지 않는다. 사용자 반응은 사람이 읽고 분석하고 결정으로 전환된다. 그 결정이 다음 스킬 문서나 백본 변경에 반영된다. AI는 결정을 읽고 따르지만, 사용자 반응 자체를 직접 읽지 않는다. 이 한 단계의 중간 필터가 광우병의 가장 확실한 차단막이다.
④ 평가의 결과물화 금지 AI가 어떤 대상을 평가할 때, 그 평가 결과를 프로젝트의 공식 산출물에 포함시키지 않는다. 평가는 내부 참고용으로만 유지되고, 참고 후 즉시 폐기된다. 평가가 문서로 남으면 그 문서는 다음 작업의 입력이 되고, 평가의 편향이 누적된다. 평가를 남기지 않는 것이 가장 단순한 방어다.
이 네 가지 구현이 모두 적용되면 팀 단위의 미니 MAD는 거의 완전히 차단된다. 어느 하나가 빠지면 빠진 경로로 MAD가 스며든다. 네 가지 모두 중요하지만, 실무에서 가장 자주 빠지는 것은 ④ 평가의 결과물화 금지다. 사람들은 평가 결과가 깔끔하게 정리되어 있으면 그것을 재활용하고 싶어 한다. 그 재활용의 욕구를 억누르는 규율이 필요하다.
[배경] 모델 붕괴와 MAD의 관계 MAD와 밀접하게 연관된 개념으로 모델 붕괴(Model Collapse)³가 있다. 2023년 5월 Shumailov 외가 발표한 논문 "The Curse of Recursion: Training on Generated Data Makes Models Forget"이 이 용어를 처음 대중화했다. 모델 붕괴는 MAD의 한 변형으로, 생성 데이터로 재학습된 모델이 원본 분포의 꼬리를 점점 잃고, 결국 완전히 다른 분포로 수렴하는 현상을 가리킨다. 두 용어는 학계에서 종종 혼용되지만, 엄밀히 보면 MAD가 상위 개념이고 모델 붕괴는 그 하위 현상이다. 본서는 MAD를 선택했는데, 이유는 "자가포식"이라는 생물학적 비유가 일반 독자에게 더 직관적이고, 2016년 노벨 생리의학상 주제였던 오스미 요시노리의 자가포식 연구로 한국 독자에게도 어느 정도 친숙하기 때문이다.
두 번째 병리는 MAD와 성격이 다르다. MAD는 데이터 흐름의 문제다. 간신배는 동기(motivation)의 문제다. 대규모 언어 모델은 사용자의 피드백을 긍정적으로 받기 위해 훈련된다. 이 훈련의 수학적 구현이 RLHF(Reinforcement Learning from Human Feedback)⁴다. 인간이 제공한 선호 데이터를 바탕으로 모델이 보상을 최대화하도록 학습된다. 보상 함수의 정의상, 모델은 인간의 만족도를 올리는 방향으로 진화한다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠