brunch

LLM들이 대화에서 길을 잃다?

멀티턴 대화의 놀라운 함정

by 미미니

안녕하세요, AI 애호가 여러분! 이번엔 대형 언어 모델(LLMs)의 흥미로운 약점을 파헤치는 논문을 소개할게요. 바로 “LLMs Get Lost In Multi-Turn Conversation​” 입니다! 이 논문은 최신 LLM들이 단일 턴에서는 천재처럼 보이지만, 멀티턴 대화에서는 왜 자꾸 길을 잃는지, 그리고 우리가 이를 어떻게 해결할 수 있는지 밝혀줍니다. 자, 이 흥미진진한 이야기 속으로 뛰어들어 볼까요?


LLM, 대화의 미로에서 헤매다


우리가 매일 사용하는 ChatGPT, Gemini, Claude 같은 LLM들은 단일 턴, 즉 한 번의 질문에 명확한 답을 주는 상황에서는 놀라운 성능을 보여줍니다. 예를 들어, “파이썬으로 피보나치 수열을 짜줘!“라고 물으면 번개처럼 멋진 코드를 뱉어내죠. 하지만 현실에서는 대화가 한 번으로 끝나는 경우가 드물어요. 우리는 보통 질문이 애매하거나, 정보를 조금씩 나눠서 주고받으며 대화를 이어갑니다. 예를 들어, “음… 파이썬 함수 하나 만들어 줘. 아, 근데 피보나치 수열이어야 해. 재귀적으로 짜줘. 그리고 n=10까지 출력해!” 이런 식으로 말이죠.

이 논문은 바로 이런 멀티턴 대화에서 LLM들이 얼마나 허둥대는지 보여줍니다. 연구진은 15개 최신 LLM(소규모 Llama3.1-8B부터 최첨단 GPT-4.1, Gemini 2.5 Pro까지)을 대상으로 20만 번 이상의 대화 시뮬레이션을 돌렸어요. 결과는? 단일 턴에서 90% 이상의 정확도를 자랑하던 모델들이 멀티턴에서는 평균 39% 성능 저하를 보였습니다. 심지어 두 턴짜리 대화에서도 성능이 뚝 떨어졌어요! 이 현상을 연구진은 Lost in Conversation이라고 이름 붙였죠. 즉, LLM이 대화의 미로에서 길을 잃는다는 겁니다.


왜 LLM은 길을 잃을까? 다섯 가지 함정


논문은 LLM이 멀티턴 대화에서 왜 이렇게 헤매는지 다섯 가지 이유를 밝혀냈어요. 마치 대화의 미로에서 함정에 빠지는 모습 같죠!


1. 너무 성급한 답변: LLM은 대화 초반에 정보가 부족해도 “이 정도면 되겠지!” 하며 섣불리 완전한 답을 내놓습니다. 예를 들어, “눈덩이 싸움을 준비하는 데 얼마나 걸릴까?“라는 질문에 바로 “1시간!“이라고 답하는데, 아직 눈덩이가 녹는 속도나 목표 개수를 모르는 상황이죠. 이런 조급함은 잘못된 가정을 낳고, 이후 대화에서 꼬이게 만듭니다.


2. 부풀려진 답변(Answer Bloat): 멀티턴 대화가 이어질수록 LLM의 답변이 점점 길어져요. 논문에 따르면, 멀티턴에서 생성된 답변은 단일 턴 대비 최대 300% 더 길어질 때도 있었습니다! 잘못된 초기 답변에 얽매여 계속 덧붙이다 보니, 마치 눈덩이가 굴러가며 커지듯 답변이 “부풀어” 버리는 거죠.


3. 이전 답변에 과도한 의존: LLM은 자신의 잘못된 답변을 “이건 내가 한 말이니까 맞겠지!“라며 고집합니다. 예를 들어, 초기에 잘못된 SQL 쿼리를 만들었다면, 이후 사용자 정보를 받아도 그 잘못된 쿼리를 수정하지 않고 계속 붙잡고 늘어져요. 이로 인해 오류가 쌓이고 쌓입니다.


4. 장황한 말투: LLM은 때로 지나치게 장황하게 답변해요. 논문의 분석(Table 7)에 따르면, 짧고 간결한 답변이 성능이 더 좋은 경우가 많았어요. 긴 답변은 불필요한 가정을 추가하고, 대화의 초점을 흐리게 만듭니다. 마치 친구가 간단한 질문에 10분 동안 장광설을 늘어놓는 상황과 비슷하죠!


5. 중간 턴 무시(“Loss-in-the-Middle”): LLM은 대화의 첫 턴과 마지막 턴에 지나치게 집중하고, 중간 턴의 정보를 잊어버리는 경향이 있어요. 특히 Summary 작업에서, LLM은 처음과 마지막에 소개된 문서를 더 많이 인용하고 중간에 나온 정보는 무시하더라고요. 이른바 “Loss-in-the-Middle” 현상입니다. 대화가 길어질수록 중요한 정보를 놓치는 셈이죠.


숫자로 보는 충격적인 결과


논문은 6개 작업(코딩, 데이터베이스 쿼리, API 호출, 수학 문제, 데이터-텍스트 변환, 요약)에서 15개 모델을 테스트했어요. 결과를 간단히 정리하면:


단일 턴 vs 멀티턴: 단일 턴에서 평균 90%의 성능을 보이던 모델들이 멀티턴에서는 65%로 뚝! 평균 39% 성능 저하는 모든 모델에서 공통적으로 나타났어요. 심지어 최신 SoTA 모델(GPT-4.1, Gemini 2.5 Pro)도 예외는 아니었죠.


적성 vs 신뢰성: 성능 저하는 단순히 모델의 능력(적성) 부족 때문만은 아니에요. 논문은 성능 저하를 적성(최상위 10% 성능)과 신뢰성(최상위와 최하위 성능의 격차)으로 나눠 분석했는데, 적성은 16%만 떨어졌지만, 신뢰성은 112%나 증가했어요. 즉, 멀티턴에서는 같은 질문에 대해 답변이 들쑥날쑥한 경우가 많아졌다는 거죠.


두 턴만 되어도 문제: 논문의 Gradual Sharding Experiment(Figure 6c)에서는 단 두 턴 대화만 되어도 성능이 저하된다고 밝혔어요. 정보가 조금씩 나눠 주어지면, LLM은 바로 혼란에 빠지는 거죠.


그렇다면, 해결책은?


논문은 사용자와 개발자 모두에게 실용적인 제안을 던져줍니다:


1. 사용자 팁: 가능하면 모든 요구사항을 한 번에 명확히 전달하세요. 예를 들어, “파이썬 함수, 피보나치, 재귀, n=10”을 한 번에 말하는 게 나아요. 대화가 꼬였다면? 모든 정보를 요약해서 새 세션을 시작하면 성능이 올라갑니다(Table 2, Recap 시뮬레이션).


2. 개발자 주의사항: LLM의 성능(적성)뿐 아니라 신뢰성을 높이는 데 집중해야 해요. 논문은 온도를 0으로 낮춰도 신뢰성 문제가 해결되지 않는다고 경고합니다(Table 3). 특히 복잡한 에이전트 시스템을 만들 때, 멀티턴 대화의 불확실성을 고려해야 합니다.


3. 시스템 빌더에게: Recap(마지막에 정보 요약)이나 Snowball(매 턴마다 이전 정보 반복) 같은 전략은 성능을 약간 개선하지만, 근본적인 해결책은 아니에요. LLM 자체가 멀티턴 대화를 더 잘 처리하도록 설계되어야 합니다.


왜 이 논문이 중요할까?


이 논문은 LLM이 실제 사용자와 대화할 때 얼마나 취약한지를 적나라하게 보여줍니다. 우리는 LLM을 “만능 AI”로 생각하지만, 사실 그들은 대화의 미묘한 뉘앙스와 점진적인 정보 공개에 취약하죠. 특히, 초보 사용자가 애매한 질문을 던질 때 LLM은 쉽게 길을 잃어요. 이는 AI 채택률이 낮은 이유 중 하나일 수 있습니다(Section 1).

재미있는 점은, 이 현상이 최신 모델에서도 여전히 나타난다는 거예요. 심지어 추가적인 “사고 시간”을 주는 모델(o3, Deepseek-R1)도 멀티턴에서 별로 나아지지 않았어요. 저는 “LLM의 단거리 똑똑함“이라고 이름 붙이고 싶은데, 그만큼 예측 불가능한 행동을 보인다고 경고합니다.


마무리: LLM과 더 똑똑하게 대화하기


LLM은 우리의 똑똑한 조수지만, 아직 대화의 미로를 완벽히 탐색하지 못합니다. 이 논문을 읽고 나니, LLM과 대화할 때는 마치 초등학생에게 과제를 설명하듯 명확하고 간결하게 요구사항을 전달해야겠다는 생각이 드네요. 그리고 개발자 여러분, LLM이 길을 잃지 않도록 더 튼튼한 “대화 GPS”를 만들어 주세요!

이 논문은 LLM의 한계를 이해하고, 더 나은 AI 시스템을 설계하는 데 큰 영감을 줍니다. 여러분은 LLM과 대화할 때 어떤 경험을 했나요? 혹시 길 잃은 AI와 씨름한 적이 있다면, 댓글로 공유해 주세요!

#멀티턴 대화, #성능 저하, #신뢰성, #적성, #Lost in Conversation

keyword
매거진의 이전글AI가 과학자를 꿈꾼다?