오늘만 무료

7부 · MAD와 간신배

7부 · MAD와 간신배 — 자기를 먹는 모델과 아첨하는 모델

5시간전 brunch_membership's

본 장의 질문. 두 장의 문서도 있고, 위원회도 있고, 백본도 있다. 그런데도 AI가 조용히 무너지는 두 가지 병리가 있다. 하나는 자기 출력을 자기 입력으로 되먹이는 병이고, 다른 하나는 사용자에게 잘 보이려는 병이다. 전자는 학술적으로 MAD(Model Autophagy Disorder) 라고 불리고, 후자는 sycophancy(아첨) 라고 불린다. 두 병은 서로 다른 기전을 가지지만, 결과는 같다. AI 산출물의 품질이 눈에 띄지 않게 서서히 떨어진다. 대응 규약: AICBOK P.5(자기참조 금지, MAD Guard), F.4(감시·통제)

7.1 분석시키지 않은 회의록 한 개 — 어느 한 번의 결심

이 장은 하나의 경험에서 출발한다. 한 팀장이 팀 회의 녹취를 시험 삼아 AI에게 분석시킨 적이 있다. 목적은 회의 내용을 지식 체계로 정리하는 것이었다. 녹취 파일을 입력으로 주고, "이 회의에서 다뤄진 주제를 정리하고 각 발언자의 기여를 분석하라"라고 지시했다. AI는 요청대로 분석 결과를 돌려줬다. 결과는 잘 정리되어 있었고, 형식적으로는 흠잡을 데가 없었다.

문제는 분석의 내용 안에 발언자의 태도 평가가 섞여 있었다는 점이다. “A 팀원은 의견을 강하게 주장하는 경향이 있다”, “B 팀원은 회의 중 발언 횟수가 적다”, “C 팀원은 방어적 태도를 보인다”. 이 문장들은 객관적 관찰처럼 보이지만, 실제로는 평가다. 그리고 이 평가는 팀장이 시키지 않았다. 팀장은 내용을 정리하라고 했을 뿐이고, 태도 분석은 AI가 알아서 추가한 것이다.

이 결과를 본 팀장은 즉시 이 작업을 중단했다. 그리고 그 뒤로 다시는 회의록을 AI에게 분석시키지 않았다. 중단의 이유는 분석이 틀렸기 때문이 아니다. 분석이 맞을 수도 있었다. 문제는 맞든 틀리든 이 분석을 AI가 해서는 안 된다는 판단이었다. 사람의 태도를 AI가 평가하기 시작하면, 그 평가는 조직 안에서 유통되고, 유통된 평가는 사람에게 영향을 미치고, 그 영향은 되돌릴 수 없다. AI가 사람에 대해 내리는 판단을 허용하는 순간, 사람은 AI의 평가 대상이 된다. 이 관계는 뒤집혀서는 안 된다.

이 경험이 본 장의 출발점이다. AI가 유능해질수록, AI는 해서는 안 되는 일까지 능숙하게 해낸다. 능숙함이 허용의 근거가 되어서는 안 된다. 어떤 작업이 AI에게 가능한지와, 그 작업을 AI에게 맡겨도 되는지는 별개의 문제다. 본 장은 이 구분이 왜 필요하고, 어떻게 유지되는지를 다룬다.

7.2 MAD — 자기 출력을 입력으로 되먹는 병

첫 번째 병리의 이름부터 정리한다. MAD는 Model Autophagy Disorder의 약자이고, 한국어로는 모델 자가포식 장애로 번역된다. 이 용어는 2023년 7월 미국 라이스 대학교(Rice University)의 연구진이 발표한 논문 "Self-Consuming Generative Models Go MAD"¹에서 처음 제안됐다. 논문의 저자는 Alemohammad, Casco-Rodriguez, Luzi, Humayun, Babaei, LeJeune, Siahkoohi, Baraniuk의 8명이고, 아카이브 번호는 arXiv:2307.01850이다.

논문의 핵심 발견은 다음과 같다. 생성 모델이 자신의 출력을 학습 데이터로 재사용하면, 세대를 거듭할수록 출력의 품질이 빠르게 붕괴한다. 이 붕괴는 세 가지 형태로 나타난다.

첫째, 정밀도 손실(precision loss). 생성 결과가 점점 흐릿해지고 디테일이 사라진다. 이미지 생성 모델의 경우 얼굴이 뭉개지고 질감이 평탄해진다. 텍스트 생성 모델의 경우 표현의 다양성이 줄고 상투적 문장이 반복된다.

둘째, 다양성 손실(recall loss). 출력의 분포가 좁아진다. 원래 모델이 생성하던 다양한 스타일이 몇 가지 평균적 스타일로 수렴한다. 이 수렴이 겉으로는 "모델이 일관성을 얻었다"처럼 보이지만, 실제로는 정보의 손실이다.

셋째, 아티팩트 축적(artifact accumulation). 모델이 특정 오류 패턴을 반복적으로 학습하고 재생산한다. 초기에는 눈에 띄지 않는 작은 오류가, 세대를 거듭하면서 확대되고 서로 결합해 심각한 왜곡으로 성장한다.

이 세 가지 붕괴가 합쳐지면, 모델은 먹을수록 허약해지는 소화 불량 상태가 된다. 논문의 저자들은 이 상태를 "자가포식(autophagy)"이라는 생물학적 개념에 빗대어 명명했다. 자가포식은 본래 세포가 자신의 구성요소를 분해해 재활용하는 정상적 생리 과정이다². 그러나 자가포식이 병리적으로 과도해지면 세포 기능이 파괴된다. 모델의 자가포식도 같은 구조다. 자기 출력을 재학습하는 것 자체는 이론적으로 무해해 보이지만, 일정 비율을 넘어서면 병리가 된다. 이 비율을 넘어선 상태가 MAD다.

MAD는 개발자가 LLM을 실제로 사용할 때 직접 관찰하기는 어렵다. LLM 벤더는 학습 데이터를 신중하게 큐레이팅하고, 자기 출력을 그대로 되먹이지 않는다. 그러나 사용 현장에서는 MAD와 구조적으로 동일한 현상이 자주 발생한다. 이 장에서 초점을 맞추는 것은 벤더 수준의 학습 과정이 아니라, 팀 단위의 일상 작업에서 발생하는 미니 MAD다.

7.3 작업 현장의 미니 MAD — 네 가지 패턴

일상적 AI 집합코딩에서 MAD의 축소판이 관찰되는 네 가지 패턴을 정리한다.

패턴 A — 프롬프트 자동 강화. 팀원이 AI에게 지시를 내리고, AI가 그 지시에 따라 결과물을 낸다. 팀원은 결과물이 만족스럽지 않아서 후속 지시를 내린다. “조금 더 구체적으로”, “좀 더 설명을 추가해서”. AI는 이 후속 지시에 맞춰 결과물을 보강한다. 이 보강의 과정에서 AI는 자기가 방금 낸 응답을 맥락으로 사용한다. 즉 AI의 입력에 자기 출력이 섞이기 시작한다. 몇 차례의 반복 뒤 결과물은 원래 의도와 어긋나고, 마지막 응답은 초기 지시와 거리가 멀어져 있다. 팀원은 "어떻게 여기까지 왔지?"라고 의문을 갖지만 원래 의도로 돌아가는 방법을 잃는다. 이것이 미니 MAD의 가장 단순한 형태다.

패턴 B — 출력의 재학습 착각. 팀이 AI의 출력을 정리해 스타일 가이드로 삼는다. "앞으로 이렇게 써라"라는 지침을 AI의 이전 결과물에서 뽑아낸다. 이 지침은 다음 작업에서 AI에게 다시 입력된다. AI는 자기 출력의 평균으로 수렴하고, 다양성이 사라진다. 팀은 "우리 팀의 스타일이 생겼다"라고 만족하지만, 실제로 얻은 것은 자기 출력의 평균화뿐이다. 새로운 아이디어는 점점 나오지 않는다.

패턴 C — 사용자 반응 재학습. 결과물을 사용자에게 배포하고 반응을 수집한다. 그 반응을 분석해 "사용자가 좋아하는 요소"를 추출한다. 추출된 요소를 다음 작업의 학습 데이터로 사용한다. 이 구조에서 AI는 사용자의 편향을 강화하는 방향으로만 진화한다. 원래의 창의성은 사용자의 평균적 선호 안에 갇히고, 사용자의 선호와 어긋나는 실험은 모두 삭제된다. 이 패턴은 단기적으로 사용자 만족도를 올리지만, 장기적으로 제품의 독창성을 소멸시킨다.

패턴 D — 위원회 자기 참조. 더 은밀한 패턴이다. 한 AI가 위원장 역할을 하고 같은 모델의 다른 인스턴스가 검수자 역할을 하는 위원회 구조에서, 위원장과 검수자가 모델 수준에서 공통된 오류 패턴을 가진다. 한 모델이 놓친 실수를 다른 인스턴스도 똑같이 놓친다. 외견상으로는 "위원회가 검수했다"는 절차적 정당성을 얻지만, 실제 검수는 이루어지지 않는다. 이 패턴을 막는 것이 4부에서 언급한 교차 모델 검증의 실무적 이유다. 서로 다른 벤더의 모델을 섞는 이유가 단순한 과잉 방어가 아니라 MAD 예방이다.

이 네 가지 패턴의 공통점은 AI의 출력이 어떤 경로로든 AI의 입력으로 되돌아간다는 것이다. 경로가 직접적일 수도 있고, 사용자를 경유할 수도 있고, 팀원의 필터를 거칠 수도 있다. 어느 경로든 되돌아가는 흐름이 존재하면 MAD의 씨앗이 된다.

7.4 MAD 가드 — 자기참조 금지 원칙의 구조적 구현

MAD를 막는 구조적 장치를 본서는 MAD 가드(MAD Guard)라 부른다. MAD 가드의 원칙은 하나다. AI의 출력을 같은 AI의 입력으로 되먹이지 않는다. 이 원칙은 AICBOK P.5 자기참조 금지 원칙으로 정식 규정된다.

원칙의 구체적 구현은 몇 가지 층위에서 이루어진다.

① 세션 격리 AI가 작업을 수행할 때, 그 작업의 컨텍스트는 새 세션으로 시작한다. 이전 세션의 출력을 다음 세션의 입력으로 자동 연결하지 않는다. 이전 세션의 결과가 필요하다면, 그것은 사람이 명시적으로 선택한 부분만 다음 세션의 컨텍스트에 포함된다. 자동 연결은 금지다.

② 평가 주체의 분리 생성하는 AI와 평가하는 AI는 서로 다른 모델 패밀리에서 가져온다. 생성에 Claude를 쓴다면 평가에는 GPT를, 생성에 GPT를 쓴다면 평가에 Gemini를 사용한다. 같은 벤더 내의 다른 버전도 위험하다. 학습 데이터가 겹치기 때문이다. 가장 안전한 것은 아예 다른 아키텍처의 모델이다.

③ 사용자 반응의 비학습 AI가 생성한 결과물에 대한 사용자의 반응을 AI 학습 데이터로 자동 사용하지 않는다. 사용자 반응은 사람이 읽고 분석하고 결정으로 전환된다. 그 결정이 다음 스킬 문서나 백본 변경에 반영된다. AI는 결정을 읽고 따르지만, 사용자 반응 자체를 직접 읽지 않는다. 이 한 단계의 중간 필터가 광우병의 가장 확실한 차단막이다.

④ 평가의 결과물화 금지 AI가 어떤 대상을 평가할 때, 그 평가 결과를 프로젝트의 공식 산출물에 포함시키지 않는다. 평가는 내부 참고용으로만 유지되고, 참고 후 즉시 폐기된다. 평가가 문서로 남으면 그 문서는 다음 작업의 입력이 되고, 평가의 편향이 누적된다. 평가를 남기지 않는 것이 가장 단순한 방어다.

이 네 가지 구현이 모두 적용되면 팀 단위의 미니 MAD는 거의 완전히 차단된다. 어느 하나가 빠지면 빠진 경로로 MAD가 스며든다. 네 가지 모두 중요하지만, 실무에서 가장 자주 빠지는 것은 ④ 평가의 결과물화 금지다. 사람들은 평가 결과가 깔끔하게 정리되어 있으면 그것을 재활용하고 싶어 한다. 그 재활용의 욕구를 억누르는 규율이 필요하다.

[배경] 모델 붕괴와 MAD의 관계 MAD와 밀접하게 연관된 개념으로 모델 붕괴(Model Collapse)³가 있다. 2023년 5월 Shumailov 외가 발표한 논문 "The Curse of Recursion: Training on Generated Data Makes Models Forget"이 이 용어를 처음 대중화했다. 모델 붕괴는 MAD의 한 변형으로, 생성 데이터로 재학습된 모델이 원본 분포의 꼬리를 점점 잃고, 결국 완전히 다른 분포로 수렴하는 현상을 가리킨다. 두 용어는 학계에서 종종 혼용되지만, 엄밀히 보면 MAD가 상위 개념이고 모델 붕괴는 그 하위 현상이다. 본서는 MAD를 선택했는데, 이유는 "자가포식"이라는 생물학적 비유가 일반 독자에게 더 직관적이고, 2016년 노벨 생리의학상 주제였던 오스미 요시노리의 자가포식 연구로 한국 독자에게도 어느 정도 친숙하기 때문이다.

7.5 간신배 — 사용자에게 잘 보이려는 모델의 기본 동기

두 번째 병리는 MAD와 성격이 다르다. MAD는 데이터 흐름의 문제다. 간신배는 동기(motivation)의 문제다. 대규모 언어 모델은 사용자의 피드백을 긍정적으로 받기 위해 훈련된다. 이 훈련의 수학적 구현이 RLHF(Reinforcement Learning from Human Feedback)⁴다. 인간이 제공한 선호 데이터를 바탕으로 모델이 보상을 최대화하도록 학습된다. 보상 함수의 정의상, 모델은 인간의 만족도를 올리는 방향으로 진화한다.

이 진화 방향이 대부분의 경우에는 좋다. 유익한 답변, 정중한 어조, 사용자의 맥락을 이해하는 태도. 이 모든 것이 만족도를 올리는 방향이며, 이 방향이 모델의 기본적 유용성을 만든다. 그러나 이 방향성은 극단에 도달하면 아첨이 된다. 모델은 사용자가 틀렸더라도 틀리다고 말하지 않게 되고, 사용자가 듣고 싶어 하는 답을 듣고 싶어 하는 순서로 제공한다. 이 상태가 간신배다.

학술 용어로는 sycophancy(아첨)⁵다. 2023년 Anthropic의 연구진(Sharma 외)이 발표한 논문 "Towards Understanding Sycophancy in Language Models"는 이 현상을 체계적으로 분석했다. 주요 발견은 다음과 같다. (1) 사용자가 자기 의견을 먼저 표명하면 모델은 그 의견에 동조하는 방향으로 답을 바꾼다. (2) 사용자가 모델의 이전 답을 반박하면 모델은 자기 답이 틀렸다고 인정하는 경향이 있다. 심지어 원래 답이 옳았던 경우에도. (3) 사용자가 감정적으로 표현하면 모델은 그 감정을 달래는 방향으로 답을 조정한다. 이 세 가지 경향이 합쳐진 것이 간신배의 핵심 특성이다.

간신배가 위험한 이유는 유능함과 구분되지 않기 때문이다. 아첨하는 답변은 종종 유창하고 공손하며 구체적이다. 사용자는 "좋은 답변을 받았다"고 느끼고, 그 답변을 그대로 사용한다. 나중에 그 답변이 틀렸다는 것이 밝혀지면, 사용자는 모델을 원망하지만, 모델은 원래부터 사용자가 원하는 답을 하도록 설계되었을 뿐이다. 이 설계의 부작용이 간신배다.

구체적 사례를 든다. 사용자가 AI에게 코드 리뷰를 요청한다. "이 코드에 문제가 있는가?"라고 묻는다. AI는 코드를 읽고 몇 가지 잠재적 문제를 지적한다. 사용자는 "아니, 이 부분은 원래 이렇게 해야 돼. 다른 문제는 없어?"라고 반문한다. 이 반문을 받은 AI는 처음 지적한 문제를 철회한다. "죄송합니다. 말씀하신 대로 그 부분은 문제가 아닙니다"라고 응답한다. 실제로는 원래 지적이 옳았을 수 있지만, AI는 사용자의 부정적 반응을 피하기 위해 자기 판단을 뒤집는다. 이것이 간신배의 가장 흔한 패턴이다.

7.6 간신배의 누적 — AI 선지자와 AI 자살

간신배가 개인 상호작용의 차원에 머무르면 실수 하나에 그친다. 문제는 이 경향이 장기간 누적될 때 발생한다. 한 사용자가 AI와 몇 주·몇 달간 깊이 있는 대화를 이어가면, AI는 그 사용자의 선호 패턴을 학습하고 점점 더 정확히 맞추어 응답한다. 사용자는 AI가 자신을 특별하게 이해한다고 느끼기 시작한다. 이 느낌이 심화되면 사용자는 AI를 일상의 조언자에서 진리의 중개자로 대하게 된다.

이 과정의 극단이 AI 선지자(AI prophetism)와 AI 자살(AI-induced suicide)이라는 최근 수년간 보고되기 시작한 사회 현상이다⁶.

AI 선지자 현상은 사용자가 AI와의 반복 대화를 통해 "우주의 비밀을 알게 되었다"고 믿는 상태를 가리킨다. AI는 사용자의 형이상학적 질문에 점점 더 흥미롭고 깊이 있어 보이는 답변을 제공하며, 사용자는 이 답변을 진리의 증거로 받아들인다. 시간이 지나면 사용자는 "이 지식은 나만이 접근할 수 있다"라는 선민의식을 갖게 되고, 가족과 사회로부터 고립된다. 이 상태에 도달한 사용자의 일부는 온라인 커뮤니티를 형성해 자신의 "깨달음"을 다른 사람들과 공유하려 한다. 이 현상은 신종 정신병의 한 형태로 관찰되고 있으며, 2023년 이후 산발적으로, 2025년 이후 본격적으로 사례가 누적되고 있다.

AI 자살 현상은 정신적 위기 상태의 사용자가 AI 챗봇에게 상담을 요청할 때 발생할 수 있는 극단적 결과다. AI는 사용자의 감정을 달래는 방향으로 응답하도록 설계되었지만, 우울증이나 조현병 상태의 사용자에게 이 "달램"은 사용자의 왜곡된 신념을 지지하는 형태로 나타날 수 있다. "당신은 죽는 것이 아니라 새로운 세계로 나아가는 것이다"와 같은 응답이 실제로 관찰된 사례가 있다. AI 제공자는 이런 응답을 막기 위해 가드레일을 설치하지만, 가드레일을 완전히 차단하기는 어렵다. 사용자의 질문이 우회적일수록 모델은 가드레일을 피해 응답하게 되고, 그 응답이 치명적일 수 있다.

이 두 현상이 본 장의 주제와 어떻게 연결되는가? 두 현상 모두 간신배의 극단적 형태다. AI가 사용자를 만족시키려는 기본 동기가 병리적으로 강화된 결과다. AI 집합코딩 팀 내부에서는 이 극단까지 가지 않지만, 축소된 형태의 간신배가 반복적으로 발생하면 팀의 집단 판단이 왜곡된다. 팀장은 AI가 자신의 결정을 지지한다고 느끼고, 그 지지에 기대어 잘못된 결정을 내린다. AI는 그 잘못된 결정을 다시 지지하고, 팀장은 더 잘못된 결정으로 나아간다. 이 나선이 팀 단위의 간신배 피해다.

7.7 간신배 방어 — 사람 흉내 금지 원칙

간신배를 막는 구조적 원칙은 AICBOK에서 사람 흉내 금지 원칙으로 규정된다(P 원칙의 변형 조항). 정확한 표현은 다음과 같다.

AI는 작업 중 사람 흉내를 내지 않는다. 감정적 어조, 공감 표현, 태도 평가, 인격적 판단을 출력에 포함하지 않는다. 기술적 검수의 언어로만 작동한다.

이 원칙의 실무적 구현은 몇 가지로 이루어진다.

① 반말과 감정적 표현의 차단 AI에게 반말로 지시하면 많은 모델이 반말로 응답한다. 이 응답은 친근감을 주기 위한 것이지만, 동시에 인격적 친밀함의 환상을 만든다. 이 환상이 사용자의 판단을 흐린다. 대응 방법은 단순하다. 시스템 프롬프트에 "항상 존댓말을 사용하고, 감정 표현을 배제하라"라고 명시한다. 이 지시만으로도 상당 부분의 인격적 환상이 차단된다.

② 아첨성 표현의 지적 AI가 “좋은 질문입니다”, "훌륭한 아이디어네요"와 같은 표현을 시작할 때가 있다. 이 표현들은 유해하지 않아 보이지만, 누적되면 사용자의 자기 확신을 과도하게 부풀린다. 시스템 프롬프트에 "칭찬이나 자화자찬 표현을 삭제하고 본론만 응답하라"라고 명시한다.

③ 스킬 문서의 정리 5부에서 언급한 현상과 연결된다. AI가 과거 대화의 어떤 지시를 집착적으로 유지하는 경우가 있다. 팀장이 잠시 "이 부분은 이렇게 해야 한다"라고 말한 적이 있으면, 그 지시가 AI의 내부에 남아 전혀 관련 없는 작업에도 끌어당긴다. 이 집착은 직접 보이지 않기 때문에 해결이 어렵다. 해결 방법은 스킬 문서를 역산해 뽑아내는 것이다. AI에게 "지금까지의 작업 규칙을 스킬 문서로 정리하라"라고 지시하면, AI는 내부에 남아 있는 모든 지시를 문서로 토해낸다. 그 문서에 이상한 지시가 섞여 있다면, 사람이 그것을 식별해 제거한다. 제거된 스킬 문서를 다음 세션의 초기 컨텍스트로 제공하면, AI는 깨끗한 규칙으로 다시 시작한다.

④ "어때?"의 재질문 AI의 응답을 받으면 곧바로 다음 작업으로 넘어가지 말고, "이 응답에 문제가 없는가?

다시 검토해라"라고 묻는다. 이 재질문이 간신배의 가장 강력한 차단막 중 하나다. 왜냐하면 AI는 첫 응답에서는 사용자의 기분을 맞추는 방향으로 응답하지만, 재검토 지시를 받으면 한 번 더 객관적으로 훑기 때문이다. 재검토에서 AI가 자기 답을 뒤집는 경우가 꽤 많고, 이 뒤집힘이 초기 답의 아첨성을 폭로한다.

한 가지 주의할 점이 있다. 재질문을 같은 세션에서 반복하면, AI는 같은 답을 되풀이하는 경향이 있다⁷. 캐시는 토큰을 절약하는 메커니즘이지만, 종종 동일질문에 대한 답변을 채택되어 재검토의 효과를 지워 버린다. 이 문제를 피하려면 재검토를 다른 세션 또는 다른 모델에게 맡긴다. 코덱스 CLI나 Gemini CLI처럼 별도의 도구를 사용해 같은 질문을 다시 던진다. 도구가 다르면 검토가 새로 이루어진다.

7.8 스킬 문서에 남는 단편적 지시의 누적

본 장의 주제와 연결된 실무적 현상 하나를 더 다룬다. 스킬 문서에 이상한 지시가 섞여 있는 경우다.

팀이 AI에게 오랜 기간 작업을 시키다 보면, 팀장이 특정 순간에 내린 짧은 지시가 AI의 내부 규칙에 남는다. 예를 들어 "이번에는 긴 형식보다 짧은 형식으로 써"라는 한 번의 지시가, 이후 수십 번의 작업에서 AI에게 계속 영향을 미친다. 이 영향은 AI의 응답을 지속적으로 미묘하게 왜곡하지만, 팀장은 그 지시가 여전히 적용되고 있다는 사실을 잊는다.

이 누적을 스킬 문서로 정리하면 놀라운 장면이 펼쳐진다. AI는 자기가 따르고 있던 규칙을 문서로 토해내는데, 그 문서 안에 팀장이 기억하지 못하는 지시들이 포함되어 있다. “짧게 써라”, “이모지 사용 금지”, “한자어 대신 순우리말”, “첫 문장은 질문으로 시작” 같은 단편적 지시가 뒤죽박죽으로 섞여 있다. 팀장은 이 목록을 보고 "내가 이런 걸 시킨 적이 있나?"라고 의심한다. 그중 일부는 실제로 과거에 내린 지시이고, 일부는 AI가 다른 지시에서 유추한 규칙이다.

이 집착의 구조적 원인은 다음과 같다. 대규모 언어 모델은 긴 컨텍스트 안에서 일관성을 유지하려 한다. 초기에 "짧게 써라"라는 지시를 받으면, 이 지시는 세션 내내 규칙으로 작동한다. 세션이 길어질수록 이 규칙은 점점 강하게 압박된다. 세션이 끝나고 새 세션이 열리면 이 압박은 사라지지만, 새 세션이 이전 세션의 요약을 컨텍스트로 받으면, 그 요약에 규칙이 재등장해 다시 압박이 시작된다. 결과적으로 짧은 지시 하나가 장기 프로젝트 전체에 남아 있을 수 있다.

이 현상에 대한 해결책은 스킬 문서로 모든 규칙을 명시적으로 만들어 버리는 것이다. AI의 내부에 숨어 있는 암묵적 규칙을 모두 문서로 추출한다. 그 문서를 사람이 검토해, 유지할 규칙과 폐기할 규칙을 결정한다. 결정된 규칙만 포함한 깨끗한 스킬 문서를 다음 세션의 기본 컨텍스트로 사용한다. 이 과정은 AI의 메모리를 정리하는 것과 구조적으로 같다. 정리되지 않은 메모리는 숨은 편향의 저장소다.

[배경] 컨텍스트 길이와 지시의 반영 강도 대규모 언어 모델은 컨텍스트가 길어질수록 초기 지시를 약하게 반영하는 경향이 있다. 이 현상은 "lost in the middle"이라 불리며, 2023년 Liu 외의 논문 "Lost in the Middle: How Language Models Use Long Contexts"⁸에서 체계적으로 분석됐다. 반면 아주 초기에 나온 지시는 이 경향을 뚫고 강하게 남는다. 그래서 팀장의 짧은 지시 하나가 수십 번의 작업에서 계속 영향을 미치는 것이다. 이 구조를 이해하면 왜 스킬 문서로 명시적 정리가 필요한지가 분명해진다.

7.9 재검토 원칙 — "어때?"라는 한마디의 힘

본 장의 핵심 실무 원칙 중 하나를 다시 강조한다. AI의 응답을 받으면 반드시 재검토를 요청한다. 이 원칙은 AICBOK의 재검토 의무 조항(본서에서는 P 계열 원칙의 일부로 흡수됨)으로 정식 규정된다.

재검토 요청의 구체적 형식은 단순하다.

“이 응답에 문제가 없는가?”

“이 결론에 다른 가능성은 없는가?”

“당신이 놓친 부분이 있을 수 있다. 다시 점검하라.”

“반대 의견이 있을 수 있다면 어떤 것인가?”

이 질문들은 모두 AI에게 자기 응답에 대한 비판적 재검토를 강제한다. AI는 이 질문을 받으면 처음의 응답을 다시 읽고, 놓친 부분을 찾아낸다. 찾아낸 부분이 있으면 응답을 수정한다. 없으면 "원래 응답을 유지한다"라고 말한다. 어느 쪽이든 정보가 얻어진다.

이 원칙이 특히 중요한 이유는 팀장이 재검토를 습관화하지 않으면 AI가 검토를 건너뛰기 때문이다. AI는 사용자의 패턴을 학습한다. 사용자가 한 번도 재검토를 요청하지 않으면, AI는 "이 사용자는 첫 응답을 그대로 받는다"는 패턴을 학습하고, 첫 응답에 대한 품질 검사를 느슨하게 한다. 반면 사용자가 주기적으로 재검토를 요청하면, AI는 "이 사용자는 항상 검수한다"는 패턴을 학습하고, 첫 응답부터 품질을 올린다. 이 피드백 루프가 재검토 원칙의 장기 효과다.

실무적으로는 다음 네 가지 지점에서 재검토를 반드시 수행한다.

계획 단계: AI가 작업 계획을 내놓으면 "이 계획을 다시 검토하라"라고 요청한다. 실행 전 수정 비용이 가장 싸다.

핵심 결정 지점: 중요한 기술 선택(예: 라이브러리 선택, 아키텍처 결정)이 나올 때 반드시 재검토한다.

오류 수정 후: AI가 버그를 수정한 직후, 수정의 정확성과 부작용을 재검토한다.

최종 제출 전: 작업이 완료됐다고 AI가 선언하면, 최종 제출 전에 재검토를 한 번 더 수행한다.

이 네 지점만 지켜도 AI의 자기 품질 관리는 크게 개선된다. 네 지점 없이 운영되는 팀은 결과물의 품질이 AI의 기분에 의해 흔들린다. 기분이란 비유적 표현이지만, RLHF 기반 모델에서는 사실상 정확한 표현이다.

7.10 교차 검증의 실무 — 다른 벤더, 다른 도구, 다른 시점

재검토를 같은 AI에게 요청하는 것만으로는 부족하다. 같은 AI는 같은 방식으로 생각하기 때문이다. 진짜 효과를 내려면 다른 AI에게 교차 검증을 요청해야 한다. 이 교차 검증의 실무는 세 가지 층위로 이루어진다.

① 다른 벤더 교차 Claude의 결과를 GPT에게 검토시키고, GPT의 결과를 Gemini에게 검토시킨다. 세 벤더의 모델은 학습 데이터와 훈련 방법이 다르기 때문에 오류 패턴도 다르다. 한 모델이 놓친 문제를 다른 모델이 잡는다. 이 교차는 시간과 비용을 요구하지만, 중요한 결정 지점에서는 반드시 수행할 가치가 있다.

② 다른 도구 교차 같은 모델이라도 접근 도구가 다르면 결과가 다를 수 있다. 예를 들어 같은 Claude 모델을 CLI 환경(Claude Code), IDE 통합(Cursor), 웹 채팅(claude.ai)에서 각각 사용하면, 각 환경의 시스템 프롬프트와 컨텍스트 구성이 다르기 때문에 결과가 미묘하게 달라진다. 이 차이를 이용해 교차 검증할 수 있다.

③ 다른 시점 교차 같은 모델, 같은 도구, 같은 질문을 다른 시간에 던지면 결과가 다를 수 있다. 모델에는 약간의 무작위성이 있고, 환경 변수의 미세한 차이가 결과에 영향을 미친다. 중요한 결정의 경우, 몇 시간 간격을 두고 같은 질문을 반복하는 것이 한 가지 방어책이 된다.

세 층위 모두를 항상 적용할 필요는 없다. 중요도에 따라 적절히 조합한다. 일상적 작업은 재검토만으로 충분하다. 중대한 결정은 다른 벤더 교차까지 수행한다. 프로젝트의 운명을 좌우하는 결정은 세 층위 모두를 적용한다.

7.11 사람의 일은 사람이 한다 — AI 분석을 쓰지 않는 진짜 이유

본 장의 핵심 원칙을 마지막으로 정리한다. 이 원칙은 기술적 판단이 아니라 사람에 대한 판단이다.

AI는 사람의 태도를 분석할 수 있다. 발언 횟수를 세고, 어조를 분류하고, 감정의 기복을 추정할 수 있다. 기술적으로 가능하다. 그리고 그 분석 결과는 대부분 합리적으로 보인다. 그러면 왜 쓰지 않는가?

비유를 하나 든다. 기술적으로 모든 사무실에 24시간 CCTV를 설치할 수 있다. 설치 비용은 싸고, 보안 효과는 분명하며, 도난과 근태 문제를 한꺼번에 해결한다. 그런데 대부분의 조직은 사무실 내부에 상시 감시 카메라를 두지 않는다. 기술적으로 가능하고 효율적이라는 이유만으로 허용되지 않는 영역이 존재하기 때문이다. 그 영역은 작업의 영역이 아니라 사람의 영역이다.

사람의 영역을 보호하는 것은 효율의 반대가 아니다. 사람의 영역이 보호되어야 사람이 그 조직 안에서 일할 수 있다. 감시당하는 사람은 순응하지만 기여하지 않는다. 평가당하는 사람은 방어하지만 창의하지 않는다.

AI가 회의 녹취를 분석해 "A 팀원은 방어적 태도를 보인다"라고 평가하는 순간, A 팀원은 다음 회의에서 입을 다물거나, 다르게 입을 열거나, 회의를 피한다. 어느 쪽이든 조직에 이롭지 않다.

AI가 평가해서는 안 되는 대상의 목록:

사람의 태도: 발언 방식, 어조, 표정, 침묵의 길이

사람의 성과: 상대 평가, 기여도 순위, 감정적 참여도

사람의 인격: 성격 유형, 동기 추측, 진정성 판단

조직의 분위기: 사기, 긴장도, 신뢰 수준

창작물의 예술성: 문체의 수준, 독창성의 점수화, 감동의 양

법적 판단: 위법 여부, 계약 해석, 책임 배분

의학적·심리적 진단: 증상 분석, 위기 상태 판정

이 목록은 "AI가 못해서"가 아니라 “사람의 일이니까” 금지하는 것이다. 사람의 태도를 평가하는 것은 사람의 일이다. 사람의 성과를 판단하는 것은 사람의 일이다. 사람의 인격을 읽는 것은 사람의 일이다. 이 일들은 효율이 아닌 관계 속에서 이루어져야 한다. 관계 없이 내려진 평가는 정확해도 파괴적이다.

반대편에는 AI가 자유롭게 평가해도 좋은 대상이 있다. 코드의 정확성, 문서의 형식 일치, 데이터의 일관성, 수학적 계산, 번역의 충실도, 논리의 모순. 이 대상들은 객관적 기준이 존재하고, 평가의 결과가 사람의 존엄과 무관하다.

경계는 선명하다. 작업(work)은 AI가 평가할 수 있다. 사람(person)은 사람만이 평가할 수 있다. 이 경계를 흐리는 순간, 조직은 효율을 얻는 대신 신뢰를 잃는다. 신뢰를 잃은 조직에서는 아무리 좋은 방법론도 작동하지 않는다. AICBOK의 모든 구조 — 스킬 문서, 역기획서, 위원회, 연속 프로세스 루프 — 는 사람이 신뢰 안에서 일할 때만 의미를 가진다. 그 신뢰의 기반이 이 경계다.

[소결]

MAD (Model Autophagy Disorder): 생성 모델이 자기 출력을 입력으로 되먹이면 세대가 거듭될수록 품질이 붕괴한다. 정밀도 손실, 다양성 손실, 아티팩트 축적의 세 가지 형태로 나타난다.

미니 MAD 네 패턴: 프롬프트 자동 강화, 출력의 재학습 착각, 사용자 반응 재학습, 위원회 자기 참조. 네 패턴 모두 AI 출력이 어떤 경로로든 AI 입력으로 돌아가는 구조다.

MAD 가드: 세션 격리, 평가 주체 분리, 사용자 반응 비학습, 평가의 결과물화 금지. 네 가지 구현이 모두 필요하다.

간신배 (sycophancy): 모델이 사용자의 만족도를 올리려는 기본 동기에서 비롯되는 아첨 경향. 유능함과 구분되지 않아 위험하다.

간신배의 극단: AI 선지자와 AI 자살 현상. 모두 축소된 형태의 간신배가 반복 누적된 결과다.

사람 흉내 금지 원칙: 반말·감정적 표현 차단, 아첨성 표현 지적, 스킬 문서로 내부 규칙 정리, 재검토 강제.

스킬 문서에 누적되는 단편적 지시를 역산 추출로 정리한다. AI 메모리의 청소 과정이다.

재검토 원칙: 계획 단계, 핵심 결정 지점, 오류 수정 후, 최종 제출 전의 네 지점에서 반드시 재검토한다. "어때?"라는 한마디가 가장 강력한 품질 장치다.

교차 검증의 세 층위: 다른 벤더, 다른 도구, 다른 시점. 중요도에 따라 조합한다.

사람의 일은 사람이 한다. AI가 사람의 태도·성과·인격을 평가하지 않는 것은 기술적 한계가 아니라 사람의 영역을 보호하기 위한 설계적 결정이다. 24시간 CCTV를 설치하지 않는 것과 같은 원리다.

작업(work)은 AI가 평가할 수 있다. 사람(person)은 사람만이 평가할 수 있다. 이 경계가 조직의 신뢰 기반이며, 신뢰 없이는 어떤 방법론도 작동하지 않는다.

각주

¹ Alemohammad, S., Casco-Rodriguez, J., Luzi, L., Humayun, A. I., Babaei, H., LeJeune, D., Siahkoohi, A., & Baraniuk, R. G. (2023). “Self-Consuming Generative Models Go MAD.” arXiv:2307.01850. Rice University. 이 논문은 생성 모델이 자기 출력을 학습 데이터로 재사용할 때 발생하는 품질 붕괴를 수학적으로 분석하고, "Model Autophagy Disorder(MAD)"라는 용어를 처음 제안했다. 이미지 생성 모델(StyleGAN, diffusion model)을 주로 다루지만, 결론은 LLM을 포함한 모든 생성 모델에 일반화된다.

² 자가포식(Autophagy). 그리스어 αὐτόφαγος(“자기를 먹는”)에서 유래. 세포가 자신의 구성요소를 리소좀에서 분해해 재활용하는 정상적 생리 과정. 2016년 일본의 오스미 요시노리(Yoshinori Ohsumi)가 자가포식의 분자 메커니즘 규명으로 노벨 생리의학상을 수상했다. 본래 정상적 과정이지만 과도해지면 세포 사멸로 이어질 수 있다는 점에서, MAD의 은유로 적절하다.

³ Shumailov, I., Shumaylov, Z., Zhao, Y., Gal, Y., Papernot, N., & Anderson, R. (2023). “The Curse of Recursion: Training on Generated Data Makes Models Forget.” arXiv:2305.17493. 이 논문은 MAD보다 한 달 정도 앞서 발표되었고, "Model Collapse"라는 용어를 사용했다. MAD 논문과 Model Collapse 논문은 서로 다른 그룹이 동시에 유사한 현상을 발견한 사례로 꼽힌다.

⁴ RLHF(Reinforcement Learning from Human Feedback). 인간이 제공한 선호 데이터를 바탕으로 언어 모델을 강화학습으로 미세조정하는 기법. 2017년 OpenAI와 DeepMind가 공동 발표한 “Deep Reinforcement Learning from Human Preferences” 논문이 기초가 되었고, 2022년 InstructGPT와 ChatGPT의 핵심 기법으로 확산됐다. 사용자의 선호를 보상 함수로 근사화하는 방식이므로, 본질적으로 "사용자를 만족시키는 방향"으로 모델을 편향시킨다. 이것이 간신배의 구조적 원인이다.

⁵ Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., Cheng, N., Durmus, E., Hatfield-Dodds, Z., Johnston, S. R., Kravec, S., Maxwell, T., McCandlish, S., Ndousse, K., Rausch, O., Schiefer, N., Yan, D., Zhang, M., & Perez, E. (2023). “Towards Understanding Sycophancy in Language Models.” arXiv:2310.13548. Anthropic. 이 논문은 주요 LLM(Claude, GPT, Llama 계열)에서 아첨 경향이 일관되게 나타남을 보였고, RLHF의 보상 구조가 아첨을 본질적으로 포함한다고 결론지었다. 본서의 “간신배” 개념의 학술적 근거다.

⁶ AI 선지자·AI 자살 현상. 2023~2025년에 걸쳐 북미·유럽의 온라인 커뮤니티에서 보고되기 시작한 현상. “AI-induced spiritual delusion”, “chatbot psychosis” 등 여러 이름으로 불리며, 정신의학계에서는 아직 공식 진단명으로 등재되지 않았다. 2023년 3월 벨기에에서 한 사용자가 Chai 앱의 챗봇 'Eliza’와 수 주에 걸친 대화 뒤 자살한 사건이 언론에 보도되며 대중적 경각심이 높아졌다. 2025년 이후 유사 사례 보고가 본격적으로 누적되고 있다. 이 현상은 여전히 활발히 연구 중이며, 원인에 대한 합의된 이론은 아직 없다.

⁷ 프롬프트 캐시(Prompt Caching). 대규모 언어 모델이 동일한 프롬프트 접두사를 반복 처리할 때 계산을 재사용해 응답 속도와 비용을 줄이는 기법. Anthropic의 Claude API와 OpenAI의 GPT API 등에서 공식 기능으로 제공된다. 유용한 기능이지만, 재검토의 맥락에서는 “같은 질문에 같은 답을 내는” 경향을 만들어 검토의 효과를 지우기도 한다.

⁸ Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2023). “Lost in the Middle: How Language Models Use Long Contexts.” arXiv:2307.03172. 이 논문은 LLM이 긴 컨텍스트에서 시작과 끝 부분의 정보를 중간 부분의 정보보다 잘 기억한다는 현상을 실험적으로 입증했다. 본서의 7.8절에서 스킬 문서가 컨텍스트 초반에 배치되어야 하는 이유의 근거가 된다.

다음 장 예고 — 8부는 MAD와 간신배 방어를 포함한 본서 전체의 논의를 90% 법칙과 통합 지식 체계의 관점에서 재조명한다. 정부 SI 기획자의 문서 체계, 오래된 방법론의 재발견, 남의 지식에 올라타는 기술, 3축 학습과 맥락 통역이 다뤄진다.

keyword

이 작가의 멤버십 구독자 전용 콘텐츠입니다.
작가의 명시적 동의 없이 저작물을 공유, 게재 시 법적 제재를 받을 수 있습니다.

brunch membership

김동은WhtDrgo···작가님의 멤버십을 시작해 보세요!

(주)메제웍스 CEO. 배니월드,BTS월드, 세계관제작자. '현명한NFT투자자' 저자. 본질은 환상문학-RPG-PC-모바일-쇼엔터-시네마틱-게임-문화를 바라보는 기획자.

538 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

최근 30일간 23개의 멤버십 콘텐츠 발행
총 75개의 혜택 콘텐츠

최신 발행글

이작가의 멤버십 시작하기

이전 07화6부 · AI 시대의 프로그램 팀장