에이전틱 AI 운영의 복병, 드리프트 6가지 유형
에이전틱 AI(Agentic AI, 자율적으로 목표를 달성하는 인공지능)는 처음엔 놀라울 만큼 잘한다.
업무를 맡기면 속도가 빨라지고, 반복 작업이 줄어든다.
그런데 2~3주가 지나면 이런 말이 나온다.
“처음엔 잘 맞았는데 요즘은 어긋난다.”
“에러는 아닌데 결과가 묘하게 나빠졌다.”
이 현상이 드리프트(Drift)이다.
시간이 지나며 ‘입력-판단-출력’의 기준이 서서히 어긋나는 현상이다.
드리프트가 까다로운 이유가 있다.
대개 크게 티가 나지 않는다.
하지만 품질 지표가 먼저 요동친다.
에러율은 마지막에 따라온다.
에이전틱 AI 운영은 특히 그렇다.
정교해 보이는 자동화는 사소한 변화 하나에 방향이 틀어진다.
드리프트를 다루는 첫 단계는 한줄 정의를 분명히 해두는 일이다.
에이전트가 무엇을 잘해야 하는지, 무엇을 해서는 안 되는지 문장으로 정리해두는 일이다.
시간이 지나며 기준이 어긋나는 현상이 나타난다.
데이터·업무·정책·모델·툴이 티 나지 않게 변한다.
에러율보다 품질 지표가 먼저 요동친다.
대응의 핵심은 기준 명문화, 모니터링, 재평가, 가드레일 강화이다.
여기서 많이 생기는 착각이 있다.
PoC(Proof of Concept, 개념검증)에서 통과한 정의가 운영에서도 그대로 통할 것이라는 믿음이다.
운영은 변수가 훨씬 많다.
정책도 바뀌고, 채널도 바뀌고, 고객의 말투도 바뀐다.
입력 데이터 분포가 변하는 현상이다.
고객 문의 유형이 바뀌어 분류나 라우팅(Routing, 문의를 적절한 담당/프로세스로 보내는 경로 지정)이 어긋난다.
예전엔 배송 지연이 많았는데, 신제품 출시 후 설치/호환 문의가 급증한다.
에이전트는 과거 패턴으로 계속 분류한다.
> 원인
시즌성, 채널 변경, 신규 상품/정책이다.
> 탐지 신호
입력 특징 분포 변화
OOD(Out-of-Distribution, 학습 범위를 벗어난 입력) 증가
재분류 요청 증가
사람 개입 증가
> 대응 레버
데이터 리프레시
피처 모니터링
문의가 바뀌면 학습 데이터도 함께 갱신되어야 한다.
정답의 정의가 변하는 현상이다.
좋은 상담의 기준이 바뀌었다고 해보자.
에이전트는 과거 기준으로만 매끈하게 마무리한다.
대화는 부드럽지만 원하는 사업 결과로 이어지지 않는다.
> 원인
KPI 변경
정책 변경
목표 재정의
> 탐지 신호
만족도는 오르는데 환불이나 이탈이 늘어나는 역설
지표 간 충돌
> 대응 레버
목표 문장 재작성
보상/평가 함수 조정
정답의 문장을 다시 쓰지 않으면 시스템은 과거의 답을 계속 낸다.
모델 자체 성능이나 행동이 달라지는 현상이다.
벤더 모델이 업데이트된 뒤 톤이 달라지고 판단 기준이 달라진다.
어제는 가능이던 게 오늘은 불가가 된다.
사용자는 들쑥날쑥하다고 느낀다.
> 원인
모델 버전 업데이트
파인튜닝/룰 변경
> 탐지 신호
동일 입력에 대한 출력 변동성 증가
일관성 약화
> 대응 레버
버전 잠금
회귀 테스트
안전 배포(카나리 Canary, 일부 트래픽에만 먼저 적용해 안전성을 확인한 뒤 점진 확대)
배포는 완성이 아니라 검증의 시작이다.
장문 컨텍스트에서 핵심 조건이 누락되거나 왜곡되는 현상이다.
환불 금지 조건이 뒤쪽에 묻혀 버린다.
에이전트가 결정을 과감하게 내려버린다.
> 원인
긴 컨텍스트
검색 결과 노이즈
요약 손실
RAG(Retrieval-Augmented Generation, 검색 증강 생성) 검색 품질 저하
> 탐지 신호
근거 제시가 흐려짐
조건 누락
답은 그럴싸한데 왜 그렇게 했는가가 사라짐
> 대응 레버
컨텍스트 정규화
핵심조건 상단 배치
> 요약 규칙
“제가 적용한 핵심 조건은 A, B, C이다.”를 기본 출력 패턴으로 둔다.
연결된 도구나 프로세스가 바뀌며 흐름이 틀어지는 현상이다.
CRM(Customer Relationship Management, 고객관계관리) 필드명이 바뀌었다.
그런데 에이전트는 성공 로그만 남기고 실제 반영은 0건이다.
^ 원인
API 변경
권한/스키마 변경
^ 탐지 신호
성공 로그는 늘어나는데 실제 반영이 없음
겉으로는 잘 돌아가는데 안쪽에서는 공회전
^ 대응 레버
계약 테스트
스키마 검증
실패를 실패로 처리하기
성공은 응답 코드가 아니라 실제 데이터가 바뀐 상태이다.
허용·금지 범위가 느슨해지거나 과도해지는 현상이다.
민감정보 마스킹 규칙이 빠져 유출 리스크가 올라간다.
혹은 반대로 너무 빡빡해져 업무 진행이 막힌다.
> 원인
프롬프트 수정
룰 누락
예외 처리 증가
> 탐지 신호
컴플라이언스 경고
감사 리스크
> 대응 레버
정책 템플릿화
변경관리
감사 로그
정책은 문서가 아니라 운영 절차이다.
누가, 언제, 왜 바꿨는지가 남아야 한다.
최우선 목표 문장 1개를 만든다.
절대 금지 행동 3개를 정한다.
품질이 나빠질 때 우선 확인할 체크리스트 5개를 둔다.
문서 한 장이면 충분하다.
중요한 것은 모두가 같은 문장을 보며 움직이게 만드는 것이다.
에러는 마지막에 나온다.
그 전에 품질 저하의 전조가 먼저 나타난다.
-재문의율
-사람 개입률
-근거 제시율
-예외 처리 비중
-성공 로그 대비 실제 반영률
-신규 상품 출시
-정책 변경
-채널 확장
-KPI 재정의
-모델 업데이트
이 다섯 가지가 발생하면 재평가를 자동으로 건다.
월 1회 점검은 안정적일 때나 통한다.
“이번 건만 그냥 통과시키자.”
이 문장이 반복되면 가드레일이 헐거워지기 시작한다.
- 예외는 기록한다.
- 예외는 분류한다.
- 예외는 원인을 제거한다.
이 흐름이 자리 잡아야 한다.
드리프트는 한 번 잡고 끝나는 문제가 아니다.
운영 습관으로 다뤄야 한다.
티 나지 않는 변화가 누적되면 어느 순간부터 “이상해졌다”라는 말로 바뀐다.
그 전조를 먼저 읽는 조직이 결국 안정적으로 자동화를 굴린다.
“Trust, but verify.”는 로널드 레이건(Ronald Reagan)이 1980년대에 자주 사용하며 유명해진 표현이다.
신뢰만으로는 부족하다.
검증이 습관이 될 때 운영 품질이 이어진다.
“Plans are nothing; planning is everything.”은 드와이트 D. 아이젠하워(Dwight D. Eisenhower)가 1957년 연설에서 언급해 널리 인용된 문장이다.
완벽한 설계도보다, 변화를 감지하고 재평가하는 과정이 성패를 가른다.
#에이전틱AI #드리프트 #AI운영
#데이터드리프트 #컨셉드리프트 #모델드리프트
#RAG #워크플로우 #컴플라이언스