모호한 불만을 구체적 피드백으로 바꾸는 법
AI의 첫 결과물을 하루 묵혀두면 좋습니다. 다음 날 다시 읽으면 "뭔가 아닌데"라는 감각이 생기기 때문입니다.
그런데 문제는 그 다음입니다.
"뭔가 아닌데"라고 느끼고 AI에게 이렇게 말합니다. "다시 해줘." 또는 "톤을 좀 바꿔줘." AI는 순순히 다시 해줍니다. 결과물이 나옵니다. 읽어보면 달라진 것 같기도 하고 아닌 것 같기도 합니다. 다시 말합니다. "아니, 그게 아니라..." 이 루프가 반복됩니다.
커플 검사 리포트를 만들 때 이 경험을 수없이 했습니다. "톤이 좀 아닌데"라고 했더니, AI가 톤만 살짝 바꿔서 거의 같은 내용을 다시 써줬습니다. 사실 문제는 톤이 아니었는데, 제가 "톤"이라고 말했으니 AI는 톤을 바꿨습니다. AI는 시킨 대로 합니다. 시키는 말이 정확해야 결과물이 바뀝니다.
피드백이 항상 결과를 좋게 만들 거라는 생각은 직관적으로 맞아 보입니다. 틀린 점을 알려주면 고치겠지, 라고요.
그런데 Kluger와 DeNisi가 1996년 Psychological Bulletin에 발표한 메타분석은 이 직관을 뒤집습니다. 131편의 연구에서 607개의 효과 크기를 추출하고, 23,663건의 관찰을 분석한 대규모 연구입니다. 피드백이 성과를 높인 경우는 약 62%였고, 나머지 38%에서는 피드백이 오히려 성과를 떨어뜨렸습니다.
피드백을 줬는데 성과가 나빠진다. 왜 이런 일이 벌어질까요?
핵심은 피드백이 주의를 어디로 향하게 하느냐에 있었습니다. Kluger와 DeNisi는 이것을 세 가지 수준으로 구분했습니다. 과제 학습에 주의를 향하게 하는 피드백, 과제 동기에 향하게 하는 피드백, 그리고 자기 자신에게 향하게 하는 피드백으로 말입니다. 피드백이 과제 자체에 집중할수록 성과가 올랐고, 자기 자신에게 집중할수록 성과가 떨어졌습니다.
쉽게 말하면 이렇습니다. "이 문단에서 원인과 결과의 순서가 뒤바뀌어 있어"는 과제에 초점을 맞춘 피드백입니다. 반면 "이거 별로야", "좀 더 잘해줘"는 판단만 있고 방향이 없습니다. 상대방이 사람이든 AI든, 이런 피드백은 결과물을 바꾸지 못합니다.
이 연구를 AI와의 협업에 대입하면 한 가지가 명확해집니다.
"다시 해줘"는 피드백이 아닙니다. 불만의 표현일 뿐입니다. AI 입장에서 "다시 해줘"에 담긴 정보는 "지금 결과물이 마음에 안 든다"는 것 하나뿐입니다. 무엇이 안 되는지, 왜 안 되는지, 어떻게 바뀌어야 하는지에 대한 정보가 없습니다.
그러면 AI는 어떻게 할까요. 가장 안전한 선택을 합니다. 표면적인 것만 살짝 바꿉니다. 문장 순서를 조정하거나, 단어를 교체하거나, 톤을 조금 바꾸거나. 구조나 관점이 바뀌지 않으니, "뭔가 아닌데"라는 느낌은 그대로 남습니다.
커플 리포트에서 실제로 겪은 일을 하나 들어보겠습니다. 리포트의 갈등 해결 섹션이 계속 마음에 안 들었습니다. 처음에는 "이 부분 다시 써줘"라고 했습니다. 거의 같은 결과물이 나왔습니다. "톤을 더 따뜻하게"라고 했습니다. 단어만 부드러워졌을 뿐 구조는 동일했습니다.
그러다 문제가 뭔지 깨달았습니다. 이 섹션이 "커플의 갈등 패턴을 진단하는" 관점으로 쓰여 있었는데, 실제로 필요했던 건 "커플이 자기 갈등 패턴을 이해하도록 돕는" 관점이었습니다. 진단과 이해는 전혀 다른 프레임입니다. 이걸 AI에게 이렇게 전달했습니다. "이 섹션의 관점을 바꿔줘. 지금은 전문가가 커플을 진단하는 톤인데, 커플이 스스로 자신의 패턴을 알아차리도록 돕는 톤이어야 해. '당신들의 갈등 유형은 X입니다' 대신 '이런 상황에서 이렇게 반응하신 적 있나요?'처럼 질문형으로." 결과물이 완전히 달라졌습니다.
AI에게 모호한 피드백을 주는 건, 내비게이션에 "어딘가 좋은 데로 가줘"라고 말하는 것과 같습니다. 내비게이션은 목적지가 있어야 경로를 계산합니다. "좋은 데"는 목적지가 아닙니다. "강남역 2번 출구"가 목적지입니다.
AI도 마찬가지입니다. "좀 더 좋게"는 방향이 없습니다. "두 번째 문단에서 '문제'라는 단어를 '차이'로 바꿔줘, 진단이 아니라 이해의 프레임이니까"는 명확한 방향입니다.
그렇다면 "뭔가 아닌데"를 어떻게 구체적인 피드백으로 바꿀 수 있을까요. 세 가지 질문이 도움이 됩니다.
첫째, 무엇이 안 되는가. 결과물 전체가 아니라 구체적인 지점을 찾습니다. "전체적으로 별로야"보다 "세 번째 문단이 안 된다"가 훨씬 유용합니다. 범위를 좁히는 것만으로도 피드백의 질이 올라갑니다.
둘째, 왜 안 되는가. 그 지점이 왜 문제인지 이유를 붙입니다. "세 번째 문단이 안 된다"보다 "세 번째 문단이 너무 추상적이라 독자가 자기 상황에 대입하기 어렵다"가 낫습니다. 이유가 붙으면 AI가 무엇을 고쳐야 하는지 파악할 수 있습니다.
셋째, 어떻게 바뀌어야 하는가. 방향을 제시합니다. "추상적이니까 구체적인 상황 예시를 하나 넣어줘", "질문형 문장으로 바꿔서 독자가 스스로 떠올리게 해줘"처럼요. 정답을 알려주는 게 아니라, 방향을 잡아주는 겁니다.
이 세 가지를 합치면 이렇게 됩니다. "세 번째 문단이 너무 추상적이라 독자가 자기 상황에 대입하기 어려워. 구체적인 일상 예시를 하나 넣어서 독자가 '아, 이거 나한테도 있는 상황이네'라고 느끼게 해줘."
이것과 "다시 해줘" 사이의 거리는, 결과물의 거리와 정확히 비례합니다.
사실 이 원리는 AI에게만 적용되는 게 아닙니다.
Kluger와 DeNisi의 연구가 보여준 것은 결국 이겁니다. 피드백의 효과는 피드백을 주느냐 안 주느냐가 아니라, 피드백이 얼마나 과제에 초점을 맞추고 있느냐에 달려 있다. 사람에게 피드백할 때도, 자기 생각을 정리할 때도, AI에게 수정을 요청할 때도 같은 원리가 작동합니다.
"뭔가 아닌데"라는 느낌은 소중합니다. 그건 내 판단력이 작동하고 있다는 신호니까요. 문제는 그 느낌을 느낌으로만 두면 아무것도 바뀌지 않는다는 겁니다. 느낌을 언어로 바꾸는 순간, AI와의 협업이 달라집니다.
다음 글에서는 이 피드백을 한 번이 아니라 여러 번 주고받으면 어떤 일이 일어나는지 이야기하겠습니다. 커플 검사 리포트를 일곱 번 고쳐서 완성한 실제 과정을 공유합니다.
Kluger, A. N., & DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119(2), 254–284.