AI 결과물의 그럴듯함이 판단력을 마비시키는 이유
커플 검사 서비스를 만들 때, AI에게 리포트 초안을 부탁한 적이 있습니다.
첫 결과물이 나왔을 때, 솔직히 감탄했습니다. 문장이 매끄럽고, 구성이 논리적이고, 심리학 용어도 적절하게 배치되어 있었습니다. "이 정도면 거의 다 됐네." 그렇게 판단했고, 거의 그대로 쓸 뻔했습니다.
며칠 뒤 그 리포트를 다시 읽어봤습니다. 이상한 점을 발견했습니다. 괜찮아 보였던 건 내용이 좋아서가 아니었습니다. 표현이 매끄러워서였습니다. 실제로 커플에게 보여줬을 때 돌아온 반응은 "맞는 말인 것 같긴 한데, 와닿지는 않아요"였습니다.
매끄러움과 정확함은 다릅니다. 그리고 이 둘을 구분하지 못하게 만드는 심리적 메커니즘이 있습니다.
AI의 결과물에는 세 가지 특징이 있습니다. 문법이 완벽합니다. 구조가 논리적입니다. 그리고 자신감 있는 톤으로 말합니다. 이 세 가지가 합쳐지면, 내용이 틀리더라도 "그럴듯해 보이는" 결과물이 만들어집니다.
문제는 우리 뇌가 이 그럴듯함에 취약하다는 점입니다.
심리학에서는 이것을 유창성 효과(fluency effect)라고 부릅니다. 읽기 쉬운 정보를 더 정확하다고 판단하는 경향입니다. 같은 내용이라도 깔끔한 폰트로 인쇄된 문장이 지저분한 손글씨보다 더 신뢰할 만하다고 느끼는 것처럼요. AI는 항상 깔끔한 폰트로 말합니다. 그래서 더 위험합니다.
이 문제를 더 깊이 이해하려면 자동화 편향(automation bias)이라는 개념을 알아야 합니다.
Parasuraman과 Manzey가 Human Factors에 발표한 리뷰 논문이 있습니다. 자동화 시스템과 인간의 상호작용에 관한 수십 년간의 연구를 종합한 논문입니다. 핵심 발견은 이렇습니다. 사람은 자동화 시스템의 출력을 과도하게 신뢰하는 경향이 있으며, 이 경향은 초보자뿐 아니라 전문가에게서도 나타나고, 훈련으로도 쉽게 교정되지 않습니다.
가장 놀라운 사례는 항공 분야에서 나왔습니다. 한 실험에서 조종사들에게 잘못된 자동 경고를 보냈습니다.
"엔진을 즉시 정지하라"는 경고였습니다. 모든 조종사가 엔진을 껐습니다. 실험이 끝난 뒤 인터뷰를 하면, 같은 조종사들이 이렇게 말했습니다. "그런 경고가 오면 바로 끄지 않을 겁니다. 먼저 확인하겠죠." 자신은 그렇게 하지 않을 거라고 확신하면서, 실제로는 정확히 그렇게 했습니다.
왜 이런 일이 벌어질까요. 자동화 시스템이 일정 수준 이상 신뢰할 만하면, 뇌는 주의를 다른 곳에 배분합니다. 자동화된 출력을 검증하는 데 쓰던 인지 자원을 절약하는 겁니다. 이것이 일종의 효율적인 전략처럼 보이지만, 시스템이 틀렸을 때 문제가 됩니다. 이미 주의를 거둬버렸기 때문에 오류를 감지하지 못합니다.
AI와의 협업에서도 똑같은 일이 벌어집니다. AI가 대부분의 경우 꽤 괜찮은 결과물을 내놓기 때문에, 우리는 비판적으로 검토하는 습관을 서서히 잃어버립니다. "이 정도면 됐지"라는 판단이 점점 빨라집니다.
여기에 한 가지 편향이 더 작동합니다.
AI는 내 요청에 맞춰서 결과물을 생성합니다. 내가 "커플의 커뮤니케이션 문제에 초점을 맞춘 리포트를 써줘"라고 하면, AI는 그 문제에 초점을 맞춘 리포트를 만들어줍니다. 당연히 내가 생각하던 방향과 일치합니다. 그러면 확증 편향이 작동합니다. 내 가설을 확인해주는 정보를 더 쉽게 받아들이는 심리입니다.
결과적으로 이런 루프가 만들어집니다.
내 생각을 AI에게 전달한다 → AI가 내 생각에 맞는 결과물을 만든다 → "역시 내 생각이 맞았어"라고 느낀다 → 비판적 검토를 건너뛴다.
사실 AI의 결과물은 내 생각의 반복일 뿐인데, AI가 만들어줬다는 이유로 객관적 검증을 받은 것처럼 느끼게 되는 겁니다.
건축에 비유하면 이렇습니다. AI의 첫 결과물은 조감도입니다. 멀리서 보면 멋집니다. 건물의 전체 형태가 보이고, 주변 환경과도 조화롭고, "이 정도면 살고 싶은 집이네"라는 생각이 듭니다.
그런데 가까이 가보면 다릅니다. 문이 없을 수도 있고, 화장실이 주방 옆에 있을 수도 있고, 계단이 어디에도 연결되지 않을 수도 있습니다. 멀리서 보면 멋진 집이지만, 실제로 살 수 있는 집은 아닌 겁니다.
커플 검사 리포트의 첫 번째 버전이 정확히 그랬습니다. 전체 구조는 그럴듯했지만, 실제 커플이 읽었을 때 "내 이야기"로 느껴지지 않았습니다. 조감도와 실제 거주 가능한 집 사이에는 꽤 먼 거리가 있었습니다.
그렇다면 어떻게 해야 할까요?
Parasuraman과 Manzey의 연구에서 흥미로운 발견이 있습니다. 자동화 편향을 줄이는 가장 효과적인 방법 중 하나는 '책임감 인식(accountability)'이었습니다. 외부에서 "너 이거 검토했어?"라고 물어보는 것보다, 스스로 "이 결과물의 책임은 나에게 있다"고 인식하는 것이 오류를 더 잘 잡아냈습니다.
AI와의 협업에서도 마찬가지입니다. AI의 결과물을 받았을 때, "이건 AI가 쓴 초안이고, 최종 판단은 내가 해야 한다"는 의식을 유지하는 것. 이것이 첫 번째 단계입니다.
구체적으로는 이렇게 해볼 수 있습니다. AI의 결과물을 처음 받았을 때, 바로 판단하지 말고 하루만 묵혀두세요. 다음 날 다시 읽으면, "그럴듯함"의 마법이 줄어들면서 내용 자체가 보이기 시작합니다. 제가 커플 리포트에서 문제를 발견한 것도, 며칠 뒤에 다시 읽어봤을 때였습니다.
하루를 묵히면 "뭔가 아닌데"라는 감각이 생깁니다. 그런데 문제는 그다음입니다. "아닌 건 알겠는데, 뭐가 아닌지 설명을 못 하겠어." 이 모호한 불만을 AI에게 전달할 수 있는 구체적인 피드백으로 바꾸는 것. 그 이야기를 다음에 하겠습니다.
Parasuraman, R., & Manzey, D. H. (2010). Complacency and bias in human use of automation: An attentional integration. Human Factors, 52(3), 381–410.