어쩐지, 이상하더라!

대화의 미로에 빠진 인공지능

by Helen

Feb 20. 2026

| AI와 나누는 대화의 미로

(가상 대화)

나: "파티 음식을 준비 중이야. 손님은 10명이고 예산은 10만 원이야."

AI: "가성비 좋은 떡볶이와 튀김 세트를 추천합니다! 1인당 1만 원이면 충분하겠네요."

나: "아, 사실 손님들이 다 외국인이야. 매운 건 못 먹어."

AI: "그렇군요. 그럼 떡볶이에서 고추장을 빼고 간장으로 맛을 낸 궁중 떡볶이로 변경하겠습니다."

나: "그냥 메뉴를 피자로 바꾸는 게 어떨까? 샐러드도 좀 추가하고."

AI: "좋은 생각입니다! 그럼 간장 떡볶이 소스를 바른 피자와 튀김 샐러드를 10인분 준비하면 되겠네요! "

이 짧은 대화에서 AI는 몇 가지 치명적인 실수를 저지른다.

첫째, 메뉴가 피자로 바뀌었음에도 불구하고 초기에 자기가 내뱉은 '떡볶이'라는 틀에서 벗어나지 못한다.

둘째, '간장'과 '피자'라는 서로 다른 정보를 무리하게 결합해 현실에는 존재하지 않는 기괴한 메뉴를 창조해 버린다.

셋째, 대화가 이어질수록 사용자의 '피자로 바꾸자'는 핵심 의도보다 자신의 이전 답변을 유지하는 데 급급해진다.

마이크로소프트와 세일즈포스 연구진이 최근 발표한 연구 보고서 'LLMs Get Lost in Multi-Turn Conversation'에 따르면 최신 인공지능 모델들은 정보를 한 번에 완벽하게 제공받을 때와 달리, 여러 번 대화를 주고받으며 요구사항을 구체화할 때 성능이 급격히 떨어진다. 평균적으로 무려 39%나 성능이 하락한다는 지표는 우리가 흔히 믿어온 '소통을 통한 정교화'가 인공지능의 세계에서는 오히려 독이 될 수 있음을 시사한다.

우리는 흔히 대화가 깊어질수록 서로를 더 잘 이해하게 된다고 믿지만, 인공지능은 정반대로 대화의 미로 속에서 허우적거린다. 연구진이 명명한 '대화 중에 길을 잃는 현상(Lost in Conversation)'은 인공지능과 더 친밀하게 소통하려 노력할수록 그 결과물이 본래의 의도에서 멀어지는 아이러니를 잘 보여준다.

| 데이터가 증명하는 멀티턴의 성능 급락

이번 연구의 핵심은 20만 건 이상의 시뮬레이션 대화를 통해 '단판 승부(Single-turn)'와 '연속 대화(Multi-turn)'에서의 AI 성능 차이를 정밀하게 측정했다는 데 있다. 연구진은 코딩, 요약, 창의적 글쓰기 등 6가지 주요 생성 작업에서 성능 변화를 추적했는데, 결과는 모든 영역에서 예외 없이 하락세였다.

단순히 정답률만 떨어지는 것이 아니라 응답의 '신뢰성' 자체가 크게 흔들린다는 점이 데이터로 드러났다. 대화가 거듭될수록 AI는 사용자의 의도를 명확히 파악하기보다는 자신의 이전 답변에 의존하게 되고, 이 과정에서 발생하는 오류가 누적되면서 전체 성능을 갉아먹는 구조다.

특히 주목할 점은 대화의 횟수가 늘어남에 따라 하락 폭이 가속화된다는 사실이다. 초기 1~2회 대화에서는 어느 정도 성능을 유지하는 듯 보이지만, 대화가 5회를 넘어서는 시점부터는 AI가 문제의 핵심을 놓치고 방황하는 모습이 통계적으로 뚜렷하게 관찰되었다.

| 무엇이 문제일까?

왜 이런 일이 발생하는 것일까. 연구진이 분석한 가장 큰 원인은 AI의 '섣부른 추측'이다. 인공지능은 정보가 충분하지 않은 대화 초기 단계에서 이미 "사용자가 원하는 건 이런 것이겠지"라며 미리 결론을 내려버린다. 마치 질문이 다 끝나기도 전에 말을 가로채 엉뚱한 조언을 내놓는 성급한 사람을 마주하는 기분이다.

문제는 그 이후다. 일단 한번 잘못된 가정을 세우면, 이후 새로운 정보가 추가되어도 AI는 자신의 초기 논리를 좀처럼 수정하지 못한다. 연구 보고서는 이를 '답변 부풀리기(Answer Bloat)' 현상으로 설명하는데, 이전의 오류를 바로잡기보다 그 위에 내용을 덧대려다 보니 답변은 장황해지고 핵심은 흐려진다.

대화가 길어질수록 나타나는 '중간 토막 망각' 현상도 흥미로운 지점이다. AI는 대화의 맨 처음 목적과 방금 나눈 마지막 말은 기억하지만, 그 사이를 채웠던 수많은 조건은 잊어버리는 경향이 있다. 대화의 허리가 끊기면서 전체적인 맥락이 무너지는 'Loss-in-middle-turns' 현상이 발생하는 것이다.

우리는 AI가 인간처럼 사고하며 대화를 쌓아갈 것이라 기대하지만, 현재의 기술 수준에서 AI는 여전히 '즉각적인 연산'에 최적화되어 있다. 긴 대화는 AI에게 학습의 기회가 아니라, 처리해야 할 노이즈가 늘어나는 과정에 불과하다는 냉정한 현실을 보여준다.

| AI와 세련된 거리를 유지하는 법

이 연구를 고려하면 AI를 대하는 태도를 새롭게 정의할 필요가 있다. AI를 인격적인 대화 상대로 여기기보다는, 가장 정교한 기계로 대우하는 것이 효율적이라는 결론이다. 협업의 성공을 위해 내가 세운 두 가지 원칙은 단순하지만 강력하다.

우선, 인공지능에게 일을 맡길 때는 '대화하며 다듬어 가자'는 생각을 버려야 한다. 가능한 모든 요구사항을 정리해 첫 번째 프롬프트에 한꺼번에 담아 전달하는 '원샷(Single-turn)' 방식이 AI가 실력을 100% 발휘할 수 있는 가장 확실한 환경이다.

또한, 대화가 꼬이기 시작한다면 미련 없이 '새 창'을 여는 결단력이 필요하다. AI가 갈팡질팡하고 있다면 그 대화창은 이미 잘못된 가정으로 오염된 상태다. 지금까지의 핵심만 추려 새 대화창에서 다시 시작하는 것, 그것이 대화의 미로에서 AI를 구출하고 나의 소중한 시간을 지키는 가장 세련된 방식이다.

https://arxiv.org/abs/2505.06120

LLMs Get Lost In Multi-Turn Conversation

Large Language Models (LLMs) are conversational interfaces. As such, LLMs have the potential to assist their users not only when they can fully specify the task at hand, but also to help them define, explore, and refine what they need through multi-turn co

https://arxiv.org/abs/2505.06120v1

keyword

매거진의 이전글왜 진짜 대화는 커피브레이크 시간에 일어날까?